Ce matin, en roulant vers le bureau, je me demandais si la reconnaissance vocale était la prochaine grande « révolution » dans nos vies et pourquoi ? Et si c’est le cas, pourquoi cela a-t-il pris autant de temps pour cette technologie soit suffisamment mure pour changer nos vies au quotidien ?
Pouvons-nous ajouter la reconnaissance vocale à une liste de révolutions technologiques comprenant l’introduction de la souris (années 80), les écrans tactiles (utilisés dans l’industrie depuis les années 80, mais réellement acceptés avec l’arrivée des iPhone et iPad) ? Je pense que oui.
Cela ne se passera pas aujourd’hui, ni demain, mais bientôt. Tout comme pour les technologies mentionnées ci-dessus, cela a changé notre manière d’interagir avec les machines autour de nous de manière spectaculaire. Si vous m’aviez demandé il y a 15 ans si je pouvais imaginer utiliser aujourd’hui un téléphone mobile avec uniquement un écran tactile afin de rapatrier mes emails, calendrier, gérer ma situation financière et rester en contact avec mes amis (sans utiliser le téléphone en tant que tel), que pensez-vous qu’aurait été ma réponse ? Il était impossible d’imaginer un appareil contenant autant de technologie et de puissance que les derniers satellites lancés. Malgré mon expérience et mes intérêts, ma réponse aurait certainement été, « où et quand puis-je me procurer cela ? ».
A quoi va ressembler cette nouvelle solution et comment allons-nous l’utiliser ? Cela va-t-il évoluer dans quelque chose comme suggéré dans Star Trek (dont je ne suis pas un grand fan à ce propos) ? Ou bien comme dans le film Minority Report ou Iran Man (ceux-là je les aime) ? Probablement. Fournissant une manière intuitive de communiquer avec la technologie autour de nous ; poser des questions et donner de simples tâches.
La reconnaissance vocale en tant que telle est disponible depuis un certain temps déjà, et bien que les performances et la qualité augmentent sans cesse, les concepts de base n’ont pas beaucoup changé. Le nouveau chapitre des technologies de reconnaissance vocale est la compréhension du langage. Pas juste la reconnaissance des mots et leur présentation sur un écran, ou la dictée de commandes vocales distinctives. Non, plutôt l’interprétation de ce qui a été dicté, ce qui implique que cela exige de pouvoir reconnaître différentes variations d’une même phrase et d’arriver tout de même au même résultat.
Fondamentalement, c’est exactement ce sur quoi nous basons nos recherches et notre travail chez G2 Speech. Sommes-nous capables, aujourd’hui, de venir avec une approche intuitive en interagissant avec un système et sommes-nous par conséquent capables d’utiliser l’information pour la répercuter vers un rapport médical et pour le développement d’indicateurs de performance d’un département ou d’un hôpital ? Pouvons-nous utiliser les données comme support pour les décisions, donnant directement un feedback au médecin créant un rapport afin de l’aider à la prescription de médicaments pour son patient ?
Le temps nous le dira ! On en reparle dans 15 ans…
Si vous êtes intéressés d’en savoir plus quant à comment la reconnaissance vocale fonctionne, jetez un coup d’œil à cette vidéo Google. Cela dure 8 minutes et explore les progrès en la matière.
Bas Jansen, Manager R&D chez G2 Speech