Concepts

Assistants vocaux : comment ça marche ?

Les assistants vocaux utilisent différentes techniques d’intelligence artificielle afin de transformer le texte prononcé en un texte écrit, d’en lever les ambiguïtés afin d’en comprendre le sens ainsi que de convertir la réponse écrite en son équivalent oral.

Assistants vocaux : comment ça marche ?

 

Lorsqu’un utilisateur demande à un assistant personnel de réaliser une tâche (par exemple, répondre à une question (« Ok Google. Quelle heure est-il ?»), le signal audio est d’abord converti en données numériques. Celles-ci sont ensuite comparées à celles contenues dans des bases de données enregistrées dans des serveurs situées dans le cloud. Une fois la réponse adéquate trouvée dans la base de données, elle est convertie en message audio.

Les assistants vocaux reposent sur l’utilisation combinée de quatre modules faisant appel à l’intelligence artificielle :

Module Rôle Expression anglaise correspondante
Reconnaissance vocale Conversion du signal audio émis par l’utilisateur en texte écrit Speech-To-Text (STT)
Traitement Automatique du Langage Naturel (TALN) Analyse sémantique et interprétation de la phrase Natural language processing (NLP)
Apprentissage en profondeur Auto-apprentissage du système afin de perfectionner les réponses futures Deep-Learning (DL)
Synthèse vocale Conversion de la réponse de la machine en un signal audio à destination de l’utilisateur Text-To-Speech (TSP)

 

Les assistants vocaux font appel à quatre modules basés sur l’intelligence artificielle

1 – Reconnaissance vocale (Speech-To-Text STT)

La première étape consiste à convertir le signal sonore prononcé par l’utilisateur en un texte écrit.

Le signal sonore est numérisé sous la forme de vecteurs acoustiques . Le logiciel trouve ensuite, au sein de sa base de données, à quels phonèmes ils correspondent puis il détermine, en fonction du contexte, les mots les plus probables parmi ceux de son lexique.

Il existe deux types de lexiques :

  • La grammaire de règles : la phrase est traitée comme un tout indissociable
  • La grammaire statistique : seuls les mots fondamentaux sont reconnus

Les assistants vocaux ont généralement recours à une utilisation simultanée de ces deux grammaires.

2 -Traitement Automatique du Langage Naturel (Natural Language Processing NLP)

Le langage naturel est celui écrit ou parlé par les humains. Cette expression s’oppose à celle de langage formel, créé avec une syntaxe et une sémantique définies, comme les langages informatiques.

Contrairement aux langages formels, le langage naturel est susceptible de comporter des ambiguïtés.

Les techniques de traitement automatique du langage naturel visent à lever ces ambiguïtés, au travers de traitements sémantiques, qui visent à comprendre le sens des phrases émises par le locuteur.

En pratique, le traitement automatique du langage naturel utilise quatre méthodes en les combinant :

  • L’analyse lexicale extrait du texte des mots ou groupes de mots pour les lier à leur catégorie grammaticale (article, nom, verbe, etc…).
  • L’analyse syntaxique (ou parsing) détermine la structure des phrases en s’appuyant sur un vocabulaire (dictionnaire) et une grammaire (règles syntaxiques) . Cette étape se base sur un dictionnaire (le vocabulaire)
  • L’analyse sémantique vise à lever les éventuelles ambiguïté pour comprendre le sens des phrases
  • L’analyse pragmatique s’attache à mettre un contexte autour des phrases

A la fin des années 80, les capacités des systèmes de TALN ont fait un véritable bond grâce l’augmentation des capacités de traitement informatique et à l’introduction des algorithmes de machine learning. L’ordinateur est devenu capable de créer ses propres règles, en les déterminant par apprentissage à partir de textes existants, devenus massivement disponibles en open source.

3 -Apprentissage en profondeur (Deep Learning DL)

Dans les années récentes, les techniques basées sur les architectures d’apprentissage profond sont parvenues à des résultats spectaculaires dans le domaine de la reconnaissance d’images et du traitement de la parole.

Les performance obtenues au travers des réseaux de neurones ont surpassé les approches traditionnelles. C’est sans doute dans le domaine de la traduction automatique que les progrès ont été les plus visibles.

La technologie du deep learning apprend à représenter le monde. C’est-à-dire comment la machine va représenter la parole ou l’image par exemple. Yann LeCun (Le Monde, 24/07/2015)

En février 2017, Microsoft a déclaré avoir obtenu, dans la reconnaissance vocale en anglais, un taux d’erreur de l’ordre de 5%, de même niveau que celui d’un humain. Ce résultat impressionnant a été obtenu en analysant en profondeur 2000 heures d’enregistrement transcrites.

De son côté, Google Assistant a appris à partir de 10.000 heures d’enregistrement de conversations.

4 – Synthèse vocale (Text-To-Speech TTS)

La synthèse est vocale est utilisée pour transmettre à l’utilisateur la réponse textuelle trouvée par l’ordinateur sous une forme sonore.

Dans ce domaine aussi les progrès ont été très importants ces dernières années.

Une des avancées récentes a été de rendre la synthèse vocale « expressive ». Cela permet d’avoir un contenu sonore qui comporte des intonations ou même des tics de langage qui lui donnent un aspect plus naturel.

La démonstration époustouflante de Google Duplex présentée lors du Google I/O 2018, de prises de rendez-vous par Google Assistant avec, d’une part, un salon de coiffure et, d’autre part,  un restaurant, montre à quel point il devient de plus en plus difficile de distinguer la synthèse vocale de la parole humaine.

 

Fermer le menu
×
×

Panier