Optimaliseren van meertalige tekst-naar-spraak met accenten en emoties
Optimizing Multilingual Text-To-Speech with Accents & Emotions
June 19, 2025
Auteurs: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI
Samenvatting
State-of-the-art tekst-naar-spraak (TTS) systemen bereiken een hoge mate van natuurlijkheid in eentalige omgevingen, maar het synthetiseren van spraak met correcte meertalige accenten (met name voor Indiase talen) en contextueel relevante emoties blijft een uitdaging vanwege culturele nuanceverschillen in huidige frameworks. Dit artikel introduceert een nieuwe TTS-architectuur die accent integreert en tegelijkertijd transliteratie behoudt met multi-schaal emotiemodellering, specifiek afgestemd op Hindi en het Indiase Engels accent. Onze aanpak breidt het Parler-TTS model uit door een taal-specifieke foneemalignering hybride encoder-decoder architectuur te integreren, en cultuurgevoelige emotie-embeddinglagen die getraind zijn op native speaker corpora, evenals het incorporeren van dynamische accent code switching met residuale vectorkwantisatie. Kwantitatieve tests tonen een verbetering van 23,7% in accentnauwkeurigheid (woordfoutpercentage reductie van 15,4% naar 11,8%) en 85,3% emotieherkenningsnauwkeurigheid door native luisteraars, wat de METTS en VECL-TTS benchmarks overtreft. De nieuwigheid van het systeem is dat het code in realtime kan mixen - uitspraken zoals "Namaste, let's talk about <Hindi zin>" kan genereren met ononderbroken accentverschuivingen terwijl emotionele consistentie behouden blijft. Subjectieve evaluatie met 200 gebruikers rapporteerde een gemiddelde opiniescore (MOS) van 4,2/5 voor culturele correctheid, aanzienlijk beter dan bestaande meertalige systemen (p<0,01). Dit onderzoek maakt cross-linguale synthese haalbaarder door schaalbare accent-emotie-ontwarring te demonstreren, met directe toepassing in Zuid-Aziatische EdTech en toegankelijkheidssoftware.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in
monolingual environments, synthesizing speech with correct multilingual accents
(especially for Indic languages) and context-relevant emotions still poses
difficulty owing to cultural nuance discrepancies in current frameworks. This
paper introduces a new TTS architecture integrating accent along with
preserving transliteration with multi-scale emotion modelling, in particularly
tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS
model by integrating A language-specific phoneme alignment hybrid
encoder-decoder architecture, and culture-sensitive emotion embedding layers
trained on native speaker corpora, as well as incorporating a dynamic accent
code switching with residual vector quantization. Quantitative tests
demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction
from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native
listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system
is that it can mix code in real time - generating statements such as "Namaste,
let's talk about <Hindi phrase>" with uninterrupted accent shifts while
preserving emotional consistency. Subjective evaluation with 200 users reported
a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than
existing multilingual systems (p<0.01). This research makes cross-lingual
synthesis more feasible by showcasing scalable accent-emotion disentanglement,
with direct application in South Asian EdTech and accessibility software.