Google dévoile des outils plus précis pour décrire les images et retranscrire les émotions, en priorité pour les utilisateurs anglophones.
Tl;dr
- Google améliore l’accessibilité d’Android avec une version enrichie de TalkBack, capable de décrire intelligemment les images grâce à l’IA Gemini.
- Les sous-titres « Expressifs » deviennent plus précis, intégrant émotions, tonalités et sons contextuels dans les transcriptions.
- Ces nouveautés sont d’abord disponibles en anglais sur Android 15 dans quatre pays, en attendant une expansion plus large.
Les dernières avancées de Google pour Android
Durant le Global Accessibility Awareness Day, Google a souhaité mettre en avant ses innovations en matière d’accessibilité numérique. Au cœur de ces nouveautés, une mise à jour majeure pour le lecteur d’écran intégré d’Android, connu sous le nom de TalkBack, ainsi qu’une évolution notable des sous-titres dits « Expressifs ».
TalkBack s’enrichit grâce à l’IA Gemini
Jusqu’ici parfois limité face aux images dépourvues de texte alternatif, TalkBack change la donne grâce à l’intégration des capacités multimodales du modèle Gemini. Désormais, ce système ne se contente plus de décrire sommairement une photo reçue par message : il permet aussi à l’utilisateur de poser des questions précises sur le contenu visuel – le modèle et la couleur d’une guitare envoyée par un ami, ou encore les objets présents en arrière-plan. Cette fonctionnalité va même plus loin, puisque l’analyse s’étend à l’ensemble de l’écran. En pleine séance d’achat en ligne, il devient possible d’interroger son téléphone sur la teinte exacte d’un vêtement ou sa disponibilité en promotion.
Sous-titres expressifs : vers une transcription plus fidèle des émotions
Parallèlement, les sous-titres générés automatiquement profitent eux aussi d’une avancée technologique marquante. Les fameuses Expressive Captions, déjà introduites fin 2023, franchissent un cap. La subtilité ? Les sous-titres ne retranscrivent plus uniquement les mots prononcés mais ajoutent désormais des indications contextuelles telles que « [grognement] » lorsqu’un participant grimace pendant un appel vidéo. Plus étonnant encore, la longueur ou l’emphase d’un mot sont respectées : lorsque le commentateur sportif s’exclame « goallllllll » durant un match retransmis en direct, cette ferveur sera enfin visible à l’écran. À cela s’ajoutent davantage de labels sonores pour signaler, par exemple, qu’une personne se racle la gorge.
Voici les principales améliorations apportées :
- Description intelligente des images sans texte alternatif.
- Sous-titrage émotionnel enrichi et plus précis.
- Déploiement réservé pour le moment aux utilisateurs anglophones équipés d’Android 15 et versions ultérieures aux États-Unis, Royaume-Uni, Canada et Australie.
Bientôt une accessibilité repensée pour tous ?
L’initiative lancée par Google, s’inscrivant dans une démarche globale portée par les grands acteurs du secteur mobile, laisse espérer que ces avancées profiteront rapidement à un public élargi. Reste à voir si les prochaines étapes concerneront également la francophonie ou d’autres marchés encore oubliés. Pour l’heure, ces outils incarnent une nouvelle façon – plus inclusive – de naviguer sur smartphone.
Source link