Les yeux fixés sur la route, vous demandez à votre GPS de trouver la station-service la plus proche et de calculer un itinéraire. Vous mettez ensuite la musique sur pause et, toujours sans lâcher le volant, vous dictez un message pour confirmer votre arrivée imminente à votre rendez-vous. L’interface vocale est en passe de devenir la norme, et pas uniquement en voiture. Derrière ces technologies, beaucoup d’intelligence artificielle et un petit coup de pouce venu de Belgique...
Votre Audi à l’écoute
Selon une récente étude réalisée par la plus grande agence de marketing digital des Etats-Unis, la voiture est l’endroit où nous faisons le plus appel à la reconnaissance vocale. 52,8 % des requêtes de ce type sont faites au volant et leur teneur, par ordre décroissant, est : chercher un itinéraire, dicter un message, appeler quelqu’un, consulter l’heure, jouer un morceau de musique.
Audi est évidemment à la pointe de ces nouveaux développements technologiques. La commande vocale est présente sur tous les modèles de la marque équipés du système Audi MMI, à l’exception des cabriolets. Elle permet de piloter directement le système d’info-divertissement ou d’effectuer des recherches de navigation. Cette commande vocale dispose de plus d’un dispositif d’amélioration de la reconnaissance de la voix de l’utilisateur. Elle se place ainsi dans le prolongement direct des progrès de l’intelligence artificielle et de ce qu’on appelle la NLP (Natural Language Processing ou Traitement du langage naturel), l’un des secteurs les plus en vogue de la recherche actuelle.
Entendre et comprendre
La reconnaissance vocale, comment ça marche ? Avant de comprendre il faut entendre, et ensuite apprendre. La première étape consiste à analyser la voix humaine afin de la transformer en informations digitales. Les fréquences sonores sont ensuite traduites en texte et sont enfin traitées par l’intelligence artificielle. Cela permet à l’appareil destinataire de les intégrer et de réagir de façon adéquate.
De prime abord, une application de reconnaissance vocale est ‘bête’. Elle ne fait que découper des sons en vecteurs acoustiques pour les donner à digérer à une machine. Ce n’est qu’avec la phase de Compréhension du Langage Naturel (Natural Language Understanding ou NLU) que celle-ci se met à réfléchir et à combiner différents modèles – le langage, la prononciation, la phonétique – et à apprendre…
Les intelligences artificielles sont d’ores et déjà capables de prouesses dans ce domaine, y compris de moduler les intonations mais aussi de percevoir ou de simuler des éléments d’hésitation pour donner une impression plus naturelle. Google a ainsi mis au point une application capable de réserver directement par téléphone une table de restaurant ou une chambre d’hôtel sans intervention humaine. Les choses se compliquent néanmoins lorsqu’il faut par exemple passer d’une langue à l’autre. La Belgique est ainsi devenue un cas d’école pour les intelligences artificielles.
Le modèle belge
Passer du français au néerlandais puis à l’allemand puis à l’anglais. Les applications de reconnaissance vocale ont fort à faire dans notre pays. Mais elles font surtout face à un défi majeur : l’agglutination, dont le néerlandais fait un grand usage. Pour les intelligences artificielles, les mots ‘klant’ et ‘klantje’ n’ont rien à voir. Le fait d’ajouter, presque à l’infini, des préfixes ou des suffixes ne rentre pas dans la logique des méthodes de NLP.
La start-up gantoise Radix s’est attelée au problème et a réussi à le résoudre en adoptant une approche totalement nouvelle. Là où les AI ont l’habitude d’apprendre en devinant (si un mot est proche d’un autre, les deux sont sans doute liés) et en utilisant le contexte, leur modèle est quant à lui capable de réduire chaque mot en un nuage d’éléments et d’appliquer ensuite dessus les méthodes de reconnaissance et d’analyse à plusieurs niveaux.
Cela signifie également que cette reconnaissance vocale passe aisément d’une langue à l’autre et parvient même à faire des liens entre les différents lexiques. Elle peut ainsi non seulement identifier le très rare et toujours réjouissant hottentottencircustentententoonstelling (10 ‘t’ et 33 lettres pour dire en un mot : exposition de tentes de cirque hottentotes), mais également de lui trouver des points communs avec tentoonstelling, exposition, exhibition, vertoon et expositie…
Et demain ?
Selon certaines études, on estime qu’en 2030, 80 % des recherches d’informations en ligne se feront par la voix. En voiture évidemment mais également chez soi à l’aide d’assistants connectés comme Amazon Alexa* ou Google Home. En 2020, on en comptait 4,2 milliards dans le monde. Un chiffre qui pourrait déjà doubler dans les deux années qui viennent et dépasser à moyen terme celui de la population mondiale.
De nombreuses innovations vont découler de cette évolution. Les voice analytics, qui pourront déterminer l’âge d’une personne ou ses émotions par le son de sa voix, ou les systèmes d’identification vocale, pour permettre l’accès à un lieu ou pour détecter des intrus, sont ainsi amenés à se multiplier. La génération de langage naturel est elle aussi en pleine explosion, dans le sillage du désormais fameux ChatGPT et de la cohorte de générateurs de texte.
Le fait que nous utilisions la voix pour effectuer des recherches va dans le même temps faire évoluer toute l’architecture des mots-clés et notre conception de l’internet. Nous avons en effet tendance à utiliser plus de mots lorsque nous posons une question à l’oral qu’à l’écrit. Quoi qu’il en soit, votre Audi est déjà prête à s’adapter à ce changement de paradigme et vous propose même des raccourcis qui rendent encore plus aisé le pilotage vocal. Parlez, et le monde est à votre portée…