Cette page décrit comment demander un modèle de reconnaissance vocale amélioré lorsque vous envoyez une demande de transcription au Cloud Speech-to-Text. Un modèle articulé sera en fin de compte la solution la plus intéressante et la plus flexible pour la partie génératrice de sons des systèmes de synthèse vocale. Le développement progresse également dans ce domaine, mais l`absence de données articulatoires fiables et de stratégies de contrôle appropriées présente encore des défis. Une solution possible qui a attiré l`intérêt est de former automatiquement les réseaux neuronaux pour contrôler un tel synthétiseur. Rahim et coll. (1993) et Bailly et coll. (1991) ont exploré de telles méthodes. La partie génératrice de son du système de synthèse peut être divisée en deux sous-classes, selon les dimensions dans lesquelles le modèle est contrôlé. Un modèle de tractus vocal peut être contrôlé par des paramètres spectraux tels que la fréquence et la bande passante ou des paramètres de forme tels que la taille et la longueur.

Le modèle source qui excite le tractus vocal a généralement des paramètres pour contrôler la forme de l`onde source. La combinaison de contrôles basés sur le temps et la fréquence est puissante dans le sens où chaque partie du système est exprimée dans ses dimensions les plus explicatives. Un inconvénient de l`approche combinée peut être qu`il rend difficile l`interaction entre la source et le filtre. Cependant, les mérites semblent l`emportent sur les inconvénients. Van LEEWEN, H. C., et E. te Lindert (1993), «Speech Maker: un cadre flexible et général pour la synthèse du texte à la parole, et son application au Néerlandais, comput. Speech lang., 7 (2): 149-168. Le terme «modélisation articulée» est souvent utilisé plutôt vaguement. Seule une partie du modèle de synthèse est généralement décrite en termes physiques, tandis que la partie restante est décrite de manière simplifiée. Comparez, par exemple, la différence entre un modèle de tube qui modélise une forme statique du tractus vocal avec un modèle physique dynamique qui décrit en fait comment les articulateurs se déplacent. Ainsi, un modèle articulé complet pour la synthèse vocale doit inclure plusieurs transformations.

La relation entre un geste articulé et une séquence de formes de voies vocales doit être modélisée. Chaque forme doit être transformée en une sorte de modèle de tube avec ses caractéristiques acoustiques. L`acoustique de l`appareil vocal peut ensuite être modélisée en termes d`un réseau électronique. À ce stade, le développeur peut choisir d`utiliser le réseau en tant que tel pour filtrer le signal source. Alternativement, l`acoustique du réseau peut être exprimée en termes de résonances qui peuvent contrôler un synthétiseur à base de formants.