ChatPaper.aiChatPaper

Otimização de Texto para Fala Multilíngue com Sotaques e Emoções

Optimizing Multilingual Text-To-Speech with Accents & Emotions

June 19, 2025
Autores: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI

Resumo

Os sistemas state-of-the-art de conversão de texto em fala (TTS) alcançam alta naturalidade em ambientes monolíngues, mas a síntese de fala com sotaques multilíngues corretos (especialmente para línguas indianas) e emoções contextualmente relevantes ainda apresenta dificuldades devido às discrepâncias de nuances culturais nos frameworks atuais. Este artigo introduz uma nova arquitetura TTS que integra sotaque, preserva a transliteração e modela emoções em múltiplas escalas, especialmente ajustada para o hindi e o sotaque do inglês indiano. Nossa abordagem estende o modelo Parler-TTS ao integrar uma arquitetura híbrida de codificador-decodificador com alinhamento de fonemas específicos da língua, camadas de incorporação de emoções sensíveis à cultura treinadas em corpora de falantes nativos, além de incorporar uma troca dinâmica de sotaque com quantização vetorial residual. Testes quantitativos demonstram uma melhoria de 23,7% na precisão do sotaque (redução da Taxa de Erro de Palavras de 15,4% para 11,8%) e uma precisão de 85,3% no reconhecimento de emoções por ouvintes nativos, superando as baselines METTS e VECL-TTS. A novidade do sistema é sua capacidade de misturar códigos em tempo real - gerando declarações como "Namaste, vamos falar sobre <frase em hindi>" com mudanças de sotaque ininterruptas, mantendo a consistência emocional. A avaliação subjetiva com 200 usuários relatou uma pontuação média de opinião (MOS) de 4,2/5 para correção cultural, muito superior aos sistemas multilíngues existentes (p<0,01). Esta pesquisa torna a síntese translinguística mais viável ao demonstrar a separação escalável de sotaque e emoção, com aplicação direta em EdTech do Sul da Ásia e software de acessibilidade.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.
PDF248June 23, 2025