février 14, 2021

Microsoft annonce un accès limité à son intelligence artificielle neuronale de synthèse vocale

Par admin2020

[ad_1]

Récemment, Microsoft annoncé accès limité à son intelligence artificielle neuronale de synthèse vocale appelée Custom Neural Voice. Le service permet aux développeurs de créer des voix synthétiques personnalisées.

La voix neurale personnalisée est un Texte pour parler (TTS) fonction de Discours dans Azure Cognitive Services qui permet aux utilisateurs de créer une voix synthétique personnalisée unique en son genre pour leur marque. Depuis l’aperçu de l’année dernière en septembre, la fonctionnalité a aidé plusieurs clients tels que AT&T, Duolingo, Progressive et Swisscom à développer des solutions vocales de marque pour leurs clients. La fonctionnalité est généralement disponible (GA), mais l’accès des clients à Custom Neural Voice comprend des contrôles techniques pour éviter toute utilisation abusive du service – ils doivent en faire la demande.

La technologie Neural TTS sous-jacente de Microsoft pour Custom Neural Voice comprend trois composants principaux: Analyseur de texte, Modèle acoustique neuronal, et Neural Vocoder. Le premier composant, Text Analyzer, est chargé de générer un discours naturel et synthétique à partir du texte. Le texte est d’abord entré dans Text Analyzer, qui fournit une sortie sous la forme d’une séquence de phonèmes (une unité de base de son qui distingue un mot d’un autre dans une langue particulière). Ensuite, la séquence de phonèmes définit les prononciations des mots fournis dans le texte, qui entre dans le modèle acoustique neuronal pour prédire les caractéristiques acoustiques qui définissent les signaux vocaux, tels que le timbre, le style de parole, la vitesse, les intonations et les modèles de stress. Enfin, le Neural Vocoder convertit les caractéristiques acoustiques en ondes audibles pour générer une parole synthétique.

Les modèles vocaux Neural TTS sont entraînés à l’aide de réseaux neuronaux profonds basés sur de vrais échantillons d’enregistrement vocal. Grâce à la capacité de personnalisation de Custom Neural Voice, les clients peuvent adapter le moteur Neural TTS pour mieux s’adapter à leurs scénarios d’utilisation. Pour tirer parti de la voix neuronale personnalisée, les clients auront besoin d’un compte Azure et d’un abonnement. Par la suite, après avoir approuvé l’utilisation de la fonctionnalité, ils peuvent démarrer un projet vocal personnalisé, télécharger des données, entraîner, tester et déployer le modèle vocal.


La source: https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/how-to-custom-voice.md

Les clients peuvent bénéficier de divers cas d’utilisation de la voix neuronale personnalisée, tels que les chatbots du service client, les assistants vocaux, l’apprentissage en ligne, les livres audio, les annonces d’intérêt public et les traductions en temps réel. Un des premiers utilisateurs, Swiss.com, souhaitait créer des expériences client plus attrayantes en créant un assistant vocal qui représente de manière unique sa marque. Dans un Microsoft Suisse information, l’auteur a écrit:

Grâce au service Speech, Swisscom a donné à ses clients l’accès à un assistant vocal intelligent et multilingue, contribuant à améliorer l’expérience client et à accélérer sa propre transformation numérique.

Qinying Liao, chef de programme principal chez Microsoft, décrit dans une Azure AI article de blog l’avantage de tirer parti de la voix neuronale personnalisée:

Dotée de cette technologie, Custom Neural Voice permet aux utilisateurs de créer des voix hautement réalistes avec un petit nombre d’audios d’entraînement. Cette nouvelle technologie permet aux entreprises de consacrer un dixième de l’effort traditionnellement nécessaire à la préparation des données de formation tout en augmentant considérablement le caractère naturel de la sortie vocale synthétique par rapport aux méthodes de formation traditionnelles.

En outre, Holger Mueller, analyste principal et vice-président de Constellation Research Inc., a déclaré à InfoQ:

Afin de rendre les ordinateurs plus humains, la parole est un ingrédient crucial et, en 2020, les entreprises doivent s’écarter des voix robotiques et standardisées, accents de la parole synthétique du passé. Le cloud permet ce niveau de création personnalisée d’expérience vocale personnalisée – avec disponibilité, calcul bon marché et capacité opérationnelle. Il s’agit donc d’un cas d’utilisation répandu parmi les acteurs IaaS / PaaS – et adapté aux entreprises et à leurs clients, et même aux employés, car ils acquièrent une expérience plus humaine.

Enfin, outre la possibilité de personnaliser les modèles de voix TTS, Microsoft propose plus de 200 voix neuronales et standard couvrant 54 langues et paramètres régionaux.



[ad_2]

Source link