Оптимизация многоязычного преобразования текста в речь с учетом акцентов и эмоций
Optimizing Multilingual Text-To-Speech with Accents & Emotions
June 19, 2025
Авторы: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI
Аннотация
Современные системы синтеза речи (TTS) достигают высокой естественности в монолингвальных средах, однако синтез речи с правильными мультиязычными акцентами (особенно для индийских языков) и контекстно-уместными эмоциями по-прежнему представляет сложность из-за культурных нюансов, не учитываемых в текущих подходах. В данной статье представлена новая архитектура TTS, интегрирующая акцент, сохраняющая транслитерацию и моделирующая эмоции на нескольких уровнях, специально адаптированная для хинди и индийского английского акцента. Наш подход расширяет модель Parler-TTS за счет интеграции гибридной архитектуры кодировщика-декодера с выравниванием языковых фонем, слоев встраивания эмоций, чувствительных к культурным особенностям и обученных на корпусах носителей языка, а также динамического переключения акцентов с использованием остаточной векторной квантизации. Количественные тесты показали улучшение точности акцента на 23,7% (снижение частоты ошибок на словах с 15,4% до 11,8%) и точность распознавания эмоций носителями языка на уровне 85,3%, что превосходит базовые модели METTS и VECL-TTS. Новизна системы заключается в возможности смешивания кодов в реальном времени — генерации фраз, таких как "Namaste, let's talk about <фраза на хинди>", с плавным переключением акцентов при сохранении эмоциональной согласованности. Субъективная оценка 200 пользователей показала средний балл (MOS) 4,2/5 за культурную корректность, что значительно лучше, чем у существующих мультиязычных систем (p<0,01). Это исследование делает кросс-лингвальный синтез более реализуемым, демонстрируя масштабируемое разделение акцента и эмоций, с прямым применением в образовательных технологиях и программном обеспечении для доступности в Южной Азии.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in
monolingual environments, synthesizing speech with correct multilingual accents
(especially for Indic languages) and context-relevant emotions still poses
difficulty owing to cultural nuance discrepancies in current frameworks. This
paper introduces a new TTS architecture integrating accent along with
preserving transliteration with multi-scale emotion modelling, in particularly
tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS
model by integrating A language-specific phoneme alignment hybrid
encoder-decoder architecture, and culture-sensitive emotion embedding layers
trained on native speaker corpora, as well as incorporating a dynamic accent
code switching with residual vector quantization. Quantitative tests
demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction
from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native
listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system
is that it can mix code in real time - generating statements such as "Namaste,
let's talk about <Hindi phrase>" with uninterrupted accent shifts while
preserving emotional consistency. Subjective evaluation with 200 users reported
a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than
existing multilingual systems (p<0.01). This research makes cross-lingual
synthesis more feasible by showcasing scalable accent-emotion disentanglement,
with direct application in South Asian EdTech and accessibility software.