Оптимизация многоязычного преобразования текста в речь с учетом акцентов и эмоций

Аннотация

Современные системы синтеза речи (TTS) достигают высокой естественности в монолингвальных средах, однако синтез речи с правильными мультиязычными акцентами (особенно для индийских языков) и контекстно-уместными эмоциями по-прежнему представляет сложность из-за культурных нюансов, не учитываемых в текущих подходах. В данной статье представлена новая архитектура TTS, интегрирующая акцент, сохраняющая транслитерацию и моделирующая эмоции на нескольких уровнях, специально адаптированная для хинди и индийского английского акцента. Наш подход расширяет модель Parler-TTS за счет интеграции гибридной архитектуры кодировщика-декодера с выравниванием языковых фонем, слоев встраивания эмоций, чувствительных к культурным особенностям и обученных на корпусах носителей языка, а также динамического переключения акцентов с использованием остаточной векторной квантизации. Количественные тесты показали улучшение точности акцента на 23,7% (снижение частоты ошибок на словах с 15,4% до 11,8%) и точность распознавания эмоций носителями языка на уровне 85,3%, что превосходит базовые модели METTS и VECL-TTS. Новизна системы заключается в возможности смешивания кодов в реальном времени — генерации фраз, таких как "Namaste, let's talk about <фраза на хинди>", с плавным переключением акцентов при сохранении эмоциональной согласованности. Субъективная оценка 200 пользователей показала средний балл (MOS) 4,2/5 за культурную корректность, что значительно лучше, чем у существующих мультиязычных систем (p<0,01). Это исследование делает кросс-лингвальный синтез более реализуемым, демонстрируя масштабируемое разделение акцента и эмоций, с прямым применением в образовательных технологиях и программном обеспечении для доступности в Южной Азии.

English

State-of-the-art text-to-speech (TTS) systems realize high naturalness in monolingual environments, synthesizing speech with correct multilingual accents (especially for Indic languages) and context-relevant emotions still poses difficulty owing to cultural nuance discrepancies in current frameworks. This paper introduces a new TTS architecture integrating accent along with preserving transliteration with multi-scale emotion modelling, in particularly tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS model by integrating A language-specific phoneme alignment hybrid encoder-decoder architecture, and culture-sensitive emotion embedding layers trained on native speaker corpora, as well as incorporating a dynamic accent code switching with residual vector quantization. Quantitative tests demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system is that it can mix code in real time - generating statements such as "Namaste, let's talk about <Hindi phrase>" with uninterrupted accent shifts while preserving emotional consistency. Subjective evaluation with 200 users reported a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than existing multilingual systems (p<0.01). This research makes cross-lingual synthesis more feasible by showcasing scalable accent-emotion disentanglement, with direct application in South Asian EdTech and accessibility software.

Оптимизация многоязычного преобразования текста в речь с учетом акцентов и эмоций

Optimizing Multilingual Text-To-Speech with Accents & Emotions

Аннотация

Support