ChatPaper.aiChatPaper

Optimierung von mehrsprachiger Text-zu-Sprache-Synthese mit Akzenten und Emotionen

Optimizing Multilingual Text-To-Speech with Accents & Emotions

June 19, 2025
Autoren: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI

Zusammenfassung

State-of-the-Art-Text-to-Speech (TTS)-Systeme erreichen eine hohe Natürlichkeit in monolingualen Umgebungen, doch die Synthese von Sprache mit korrekten multilingualen Akzenten (insbesondere für indische Sprachen) und kontextrelevanten Emotionen stellt aufgrund kultureller Nuancenunterschiede in aktuellen Frameworks weiterhin eine Herausforderung dar. Dieses Papier stellt eine neue TTS-Architektur vor, die Akzente integriert und gleichzeitig Transliteration mit mehrskaliger Emotionsmodellierung bewahrt, speziell für Hindi und indisches Englisch optimiert. Unser Ansatz erweitert das Parler-TTS-Modell durch die Integration einer sprachspezifischen Phonem-Alignment-Hybrid-Encoder-Decoder-Architektur sowie kultursensitiver Emotions-Einbettungsschichten, die auf Korpora von Muttersprachlern trainiert wurden, und durch die Einbindung eines dynamischen Akzent-Code-Switchings mit residualer Vektorquantisierung. Quantitative Tests zeigen eine Verbesserung der Akzentgenauigkeit um 23,7 % (Reduktion der Wortfehlerrate von 15,4 % auf 11,8 %) und eine Emotionserkennungsgenauigkeit von 85,3 % bei muttersprachlichen Zuhörern, womit die METTS- und VECL-TTS-Baselines übertroffen werden. Die Neuartigkeit des Systems liegt darin, dass es Code in Echtzeit mischen kann – beispielsweise Aussagen wie „Namaste, let’s talk about <Hindi-Phrase>“ mit nahtlosen Akzentwechseln erzeugt, während die emotionale Konsistenz erhalten bleibt. Eine subjektive Bewertung mit 200 Nutzern ergab einen mittleren Meinungswert (MOS) von 4,2/5 für kulturelle Korrektheit, was deutlich besser ist als bei bestehenden multilingualen Systemen (p<0,01). Diese Forschung macht cross-linguale Synthese durch skalierbare Akzent-Emotions-Entflechtung praktikabler und zeigt direkte Anwendungen in südasiatischer EdTech- und Barrierefreiheitssoftware.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.
PDF228June 23, 2025