La reconnaissance vocale meilleure que les claviers?

Une expérience menée par l’université de Stanford  montre qu’un logiciel de reconnaissance vocalepeut écrire un message trois fois plus vite qu’un humain, et en étant beaucoup plus précis.

Les reconnaissances vocales sur nos smartphones souffrent parfois d’une mauvaise image auprès du public. Cette technologie pourtant si prometteuse peut s’avérer être parfois trop lente et fait encore de nombreuses erreurs de compréhension. Ce n’est pourtant pas la conclusion à laquelle arrive une expérience menée à l’université de Stanford qui observe que cette technologie peut être trois fois plus rapide qu’un être humain pour écrire un message, tout en étant plus précis.

« La reconnaissance vocale est quelque chose que l’on nous promet depuis plusieurs années mais cela n’a jamais vraiment marché », explique James Landay, professeur de sciences informatiques à Stanford et co-auteur de cette étude. Il ajoute néanmoins que « la reconnaissance vocale était en train de beaucoup s’améliorer depuis deux ou trois ans, bénéficiant du big data et de l’apprentissage profond pour entraîner son réseau neuronal et produire des résultats plus rapides et précis ». C’est pourquoi, les chercheurs ont décidé de tester cette technologie contre des humains.

Pour ce faire, ils ont utilisé le logiciel Deep Speech 2 de la firme chinoise Baidu pour le confronter à 32 volontaires âgés entre 19 à 32 ans. « Ils ont grandi en écrivant des messages, donc nous avons opposé la reconnaissance vocale à des gens qui sont très bons pour cette tâche », précise James Landay. Sur une centaine de phrases, les participants devaient soit taper eux-mêmes une centaine de phrases soit la dicter à haute voix au smartphone. La moitié d’entre eux ont réalisé l’expérience en anglais, l’autre en mandarin.

Le professeur confie qu’il s’attendait à ce que le logiciel surpasse l’homme. Ce qui l’a surpris en revanche, c’est de voir à quel point. En moyenne, le premier écrit le texte 3 fois plus rapidement que le second avec un taux d’erreur plus faible de 20,4 % pour les textes en anglais. Pour ceux en mandarin, la vitesse d’exécution est 2,8 fois plus grande pour un taux d’erreur 63,4 fois plus petit.

Bien qu’ils aient utilisé exclusivement un logiciel de Baidu, les chercheurs sont persuadés que de telles performances peuvent être observées pour d’autres reconnaissances vocales.

Laisser un commentaire

serial rss