DeepMind, la filiale de la firme de Mountain View qui développe l’Intelligence Artificielle, avait déjà fait montre de sa puissance en battant les meilleurs joueurs au monde du jeu de GO, sans doute le jeu le plus complexe au monde, et réputé inaccessible aux ordinateurs. C’est un nouveau cap qui est désormais franchi. Car DeepMind est capable de développer la même puissance dans la synthèse vocale.
Google démontre donc aujourd’hui qu’il est possible pour une IA de rivaliser avec la voix humaine. En effet, grâce à l’application WaveNet adossée à la puissance de DeepMind, une IA peut générer des sons très proches de l’humain, sans pour autant avoir besoin de ce dernier. L’IA peut donc parler « normalement ».
Génération de son à la volée
Mais le plus surprenant, techniquement parlant, c’est que l’IA ne s’appuie sur aucune base de données de sons préenregistrés. WaveNet écoute, apprend et retranscrit, à la volée. Si vous prenez votre smartphone, ou même votre GPS, les synthèses vocales fonctionnent sur des bibliothèques de sons, préenregistrés par un homme ou une femme. C’est ce que l’on appelle la synthèse de voix par concaténation. Quant à la synthèse vocale utilisée historiquement par Windows, il s’agit de modélisation paramétrique.
WaveNet, elle, n’a aucun besoin de ces bases de données. Si elle a besoin de l’homme, c’est simplement pour qu’il lui apprenne comment parler. Une expérience a été menée, qui vise à comparer le naturel des voix, suivant qu’elles soient émises par l’humain, par WaveNet, par concaténation ou par modélisation paramétrique. Les auditeurs soumis à ce test ont classé WaveNet très proche de la voix humaine, et largement au-dessus des autres techniques de synthèse vocale.
Wavenet le meilleur imitateur du monde
La grande différence entre la concaténation et WaveNet, c’est que la première demande à ce que les phrases, ou les mots, soient préenregistrés auparavant. C’est pourquoi votre GPS vous livre des kits complets, comprenant l’ensemble des enregistrements utiles et/ou nécessaires à l’application. WaveNet apprend, aussi bien le timbre, que l’intonation ou le phrasé. Les limites des précédentes techniques sont donc très largement repoussées. Mais, mieux encore, cela fait de DeepMind/WaveNet le meilleur imitateur du monde.
Et, bien entendu, WaveNet ne se limite pas à la voix humaine. Elle peut reproduire tous les sons. Jouez un morceau de piano ou de guitare, elle vous le ressortira sans aucune fausse note, et avec le même son que votre instrument. En même temps, c’est plus facile que de reproduire le son de cordes vocales humaines…
Wavenet limiter au son
Attention toutefois, WaveNet ne reproduit que le son. Et pas encore les mots. Il faut donc lui adjoindre un autre programme recréant la structure des phrases. Mais on peut s’attendre à ce que Google intègre très vite la partie linguistique sur DeepMind. Néanmoins, ne vous attendez à pouvoir utiliser cette technologie sur votre smartphone tout de suite. Elle est encore trop vorace en ressources, et ne serait pas supportée par nos outils informatiques de poche. Mais quand on constate à quelle vitesse les derniers progrès ont été réalisés, on peut sans doute s’attendre à entendre DeepMind/WaveNet sur nos téléphones dans quelques années tout au plus…