ChatPaper.aiChatPaper

Optimisation de la Synthèse Vocale Multilingue avec Accents et Émotions

Optimizing Multilingual Text-To-Speech with Accents & Emotions

June 19, 2025
Auteurs: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI

Résumé

Les systèmes de synthèse vocale (TTS) de pointe atteignent un haut niveau de naturalité dans des environnements monolingues, mais la synthèse de la parole avec des accents multilingues corrects (en particulier pour les langues indiennes) et des émotions pertinentes au contexte reste difficile en raison des divergences de nuances culturelles dans les cadres actuels. Cet article présente une nouvelle architecture TTS intégrant l'accent tout en préservant la translittération avec une modélisation des émotions à multi-échelle, spécialement adaptée pour l'hindi et l'accent anglais indien. Notre approche étend le modèle Parler-TTS en intégrant une architecture hybride encodeur-décodeur spécifique à la langue pour l'alignement des phonèmes, des couches d'incorporation d'émotions sensibles à la culture entraînées sur des corpus de locuteurs natifs, ainsi qu'un changement dynamique d'accent avec quantification vectorielle résiduelle. Les tests quantitatifs démontrent une amélioration de 23,7 % dans la précision de l'accent (réduction du taux d'erreur sur les mots de 15,4 % à 11,8 %) et une précision de reconnaissance des émotions de 85,3 % par les auditeurs natifs, surpassant les références METTS et VECL-TTS. La nouveauté du système réside dans sa capacité à mélanger les codes en temps réel - générant des phrases telles que "Namaste, parlons de <phrase en hindi>" avec des transitions d'accent fluides tout en préservant la cohérence émotionnelle. Une évaluation subjective auprès de 200 utilisateurs a rapporté un score d'opinion moyen (MOS) de 4,2/5 pour la justesse culturelle, bien supérieur aux systèmes multilingues existants (p<0,01). Cette recherche rend la synthèse translinguistique plus réalisable en démontrant une séparation scalable entre accent et émotion, avec une application directe dans les logiciels éducatifs et d'accessibilité en Asie du Sud.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.
PDF228June 23, 2025