ChatPaper.aiChatPaper

Optimización de la Conversión de Texto a Voz Multilingüe con Acentos y Emociones

Optimizing Multilingual Text-To-Speech with Accents & Emotions

June 19, 2025
Autores: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI

Resumen

Los sistemas de conversión de texto a voz (TTS) de última generación logran un alto nivel de naturalidad en entornos monolingües; sin embargo, sintetizar habla con acentos multilingües correctos (especialmente para lenguas índicas) y emociones relevantes al contexto sigue presentando dificultades debido a las discrepancias en los matices culturales en los marcos actuales. Este artículo introduce una nueva arquitectura TTS que integra el acento junto con la preservación de la transliteración y un modelado de emociones a múltiples escalas, especialmente ajustada para el hindi y el acento del inglés indio. Nuestro enfoque extiende el modelo Parler-TTS mediante la integración de una arquitectura híbrida codificador-decodificador específica para la alineación de fonemas, capas de incrustación de emociones sensibles a la cultura entrenadas con corpus de hablantes nativos, así como la incorporación de un cambio dinámico de acento con cuantización vectorial residual. Las pruebas cuantitativas demuestran una mejora del 23.7% en la precisión del acento (reducción de la tasa de error de palabras del 15.4% al 11.8%) y una precisión del 85.3% en el reconocimiento de emociones por parte de oyentes nativos, superando los baselines de METTS y VECL-TTS. La novedad del sistema radica en su capacidad para mezclar códigos en tiempo real, generando enunciados como "Namaste, hablemos de <frase en hindi>" con cambios de acento ininterrumpidos mientras se mantiene la consistencia emocional. La evaluación subjetiva con 200 usuarios reportó una puntuación media de opinión (MOS) de 4.2/5 en cuanto a corrección cultural, significativamente mejor que los sistemas multilingües existentes (p<0.01). Esta investigación hace que la síntesis translingüe sea más viable al mostrar la separación escalable de acento y emoción, con aplicaciones directas en el sector de tecnología educativa (EdTech) y software de accesibilidad en el sur de Asia.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.
PDF228June 23, 2025