ChatPaper.aiChatPaper

Optimaliseren van meertalige tekst-naar-spraak met accenten en emoties

Optimizing Multilingual Text-To-Speech with Accents & Emotions

June 19, 2025
Auteurs: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI

Samenvatting

State-of-the-art tekst-naar-spraak (TTS) systemen bereiken een hoge mate van natuurlijkheid in eentalige omgevingen, maar het synthetiseren van spraak met correcte meertalige accenten (met name voor Indiase talen) en contextueel relevante emoties blijft een uitdaging vanwege culturele nuanceverschillen in huidige frameworks. Dit artikel introduceert een nieuwe TTS-architectuur die accent integreert en tegelijkertijd transliteratie behoudt met multi-schaal emotiemodellering, specifiek afgestemd op Hindi en het Indiase Engels accent. Onze aanpak breidt het Parler-TTS model uit door een taal-specifieke foneemalignering hybride encoder-decoder architectuur te integreren, en cultuurgevoelige emotie-embeddinglagen die getraind zijn op native speaker corpora, evenals het incorporeren van dynamische accent code switching met residuale vectorkwantisatie. Kwantitatieve tests tonen een verbetering van 23,7% in accentnauwkeurigheid (woordfoutpercentage reductie van 15,4% naar 11,8%) en 85,3% emotieherkenningsnauwkeurigheid door native luisteraars, wat de METTS en VECL-TTS benchmarks overtreft. De nieuwigheid van het systeem is dat het code in realtime kan mixen - uitspraken zoals "Namaste, let's talk about <Hindi zin>" kan genereren met ononderbroken accentverschuivingen terwijl emotionele consistentie behouden blijft. Subjectieve evaluatie met 200 gebruikers rapporteerde een gemiddelde opiniescore (MOS) van 4,2/5 voor culturele correctheid, aanzienlijk beter dan bestaande meertalige systemen (p<0,01). Dit onderzoek maakt cross-linguale synthese haalbaarder door schaalbare accent-emotie-ontwarring te demonstreren, met directe toepassing in Zuid-Aziatische EdTech en toegankelijkheidssoftware.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.
PDF238June 23, 2025