3. La reconnaissance vocale 



Tout le monde possède le même mécanisme de phonation. Ainsi toutes nos voix sont semblables dans l'ensemble. Elles peuvent être reconnues par des machines. C'est la reconnaissance vocale.

Aujourd'hui, tout le monde peut donner un ordre à sa tablette par la voix, et la machine exécute cet ordre. Ce principe repose sur la reconnaissance vocale. Comment un système est-il capable de transcrire les mêmes mots prononcés par une multitude de voix très différentes ?

La reconnaissance vocale sert à transformer un signal de parole, c'est-à-dire une suite de mots prononcés, en fichier numérique. C'est une conversion de la voix en signal électrique. 

Le premier dispositif de commande vocal a été créé en 1971. C'est le Voice Command System. Il s'agit d'une calculatrice capable de reconnaître 24 ordres.

Pour reconnaître des mots, la machine a besoin d'analyser le signal sonore. Cette analyse est découpée en plusieurs temps:

  • la machine sépare les bruits de fond, du son à analyser ;
  • le son émis par le locuteur est capté par un microphone ;
  • ce signal est numérisé à l'aide d'un convertisseur ;
  • il peut être compressé car la voix humaine comprend beaucoup de sons répétitifs. Le temps de traitement est ainsi réduit ;
  • les mots sont traités comme une suite de syllabes ; ce qui entraîne une analyse plus approfondie que par chaque mot dans une phrase. C'est ce que l'on appelle la méthode analytique : elle part de la structure des mots.
  • le signal vocal est ensuite comparé à un dictionnaire de référence. Pour rendre le taux d'erreur le plus faible possible, il existe différents dictionnaires de vocabulaire selon le type d'activité. Un algorithme de reconnaissance calcule le taux de similitude entre le mot prononcé et les différentes possibilités du dictionnaire. Il choisit ensuite le mot le plus  ressemblant.
  • enfin, la phrase est écrite et rendue lisible à celui qui l'a prononcée ; ou l'action demandée est effectuée.


Analyse du mot "effacer"

Les sons sont analysés un par un : ce sont les phonèmes. Chaque lettre est rapprochée d'un son général. Les voyelles correspondent à des intensités plus fortes que les consonnes (cf schéma).


Pour faire rentrer des mots dans ces dictionnaires, il faut répéter le mot pour qu'il soit enregistré en tant que séquence sonore. La reconnaissance vocale repose aussi sur une comparaison des rythmes, des fréquences et des amplitudes d'un son, entre un  enregistrement et les mots prononcés d'une personne.


La reconnaissance vocale est utile dans plusieurs domaines :

- une personne parle et le texte s'affiche : par exemple sur les smartphones pour faire une recherche sur internet. C'est ce qu'on appelle une dictée vocale. Elle libère du clavier.

- la signature vocale : elle fonctionne comme un code car chaque personne a un timbre de voix différent.

- la messagerie sur les téléphones portables : elle reconnait les mots-clés prononcés par la personne dans un menu proposé.

- la possibilité de contrôler des appareils à distance : c'est le principe de commande. La machine reçoit un ordre en vue de faire fonctionner un objet. Par exemple : quand on entre un lieu dans un GPS.


Parler pour faire une recherche sur internet : la technologie se développe !


Ainsi, même si chaque individu a une voix différente, les machines sont capables de reconnaître les sons de la voix humaine dans son ensemble pour réaliser ce qui a été demandé. Elle amène un véritable confort de travail.


page suivante