다국어 텍스트-음성 변환의 액센트 및 감정 최적화
Optimizing Multilingual Text-To-Speech with Accents & Emotions
June 19, 2025
저자: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey
cs.AI
초록
최첨단 텍스트-투-스피치(TTS) 시스템은 단일 언어 환경에서 높은 자연스러움을 구현하지만, 특히 인도 언어를 대상으로 한 다국어 억양과 문맥에 적합한 감정을 포함한 음성 합성은 현재 프레임워크의 문화적 뉘앙스 차이로 인해 여전히 어려움을 겪고 있다. 본 논문은 힌디어와 인도 영어 억양에 특화된 다중 스케일 감정 모델링과 함께 음역을 보존하는 새로운 TTS 아키텍처를 소개한다. 우리의 접근 방식은 Parler-TTS 모델을 확장하여 언어별 음소 정렬 하이브리드 인코더-디코더 아키텍처와 원어민 말뭉치로 훈련된 문화 민감형 감정 임베딩 레이어를 통합하고, 잔여 벡터 양자화를 통한 동적 억양 코드 전환을 포함한다. 정량적 테스트 결과, 억양 정확도가 23.7% 향상되었으며(단어 오류율이 15.4%에서 11.8%로 감소), 원어민 청취자의 감정 인식 정확도는 85.3%로 METTS 및 VECL-TTS 기준선을 능가했다. 이 시스템의 독창성은 실시간으로 코드를 혼합할 수 있다는 점으로, "Namaste, <힌디어 구문>에 대해 이야기해 봅시다"와 같은 문장을 억양 전환 없이 생성하면서도 감정적 일관성을 유지할 수 있다. 200명의 사용자를 대상으로 한 주관적 평가에서 문화적 정확성에 대한 평균 의견 점수(MOS)는 4.2/5로, 기존 다국어 시스템보다 훨씬 우수했다(p<0.01). 이 연구는 확장 가능한 억양-감정 분리를 통해 남아시아 교육 기술 및 접근성 소프트웨어에 직접 적용 가능한 크로스-링구얼 합성을 더욱 실현 가능하게 만든다.
English
State-of-the-art text-to-speech (TTS) systems realize high naturalness in
monolingual environments, synthesizing speech with correct multilingual accents
(especially for Indic languages) and context-relevant emotions still poses
difficulty owing to cultural nuance discrepancies in current frameworks. This
paper introduces a new TTS architecture integrating accent along with
preserving transliteration with multi-scale emotion modelling, in particularly
tuned for Hindi and Indian English accent. Our approach extends the Parler-TTS
model by integrating A language-specific phoneme alignment hybrid
encoder-decoder architecture, and culture-sensitive emotion embedding layers
trained on native speaker corpora, as well as incorporating a dynamic accent
code switching with residual vector quantization. Quantitative tests
demonstrate 23.7% improvement in accent accuracy (Word Error Rate reduction
from 15.4% to 11.8%) and 85.3% emotion recognition accuracy from native
listeners, surpassing METTS and VECL-TTS baselines. The novelty of the system
is that it can mix code in real time - generating statements such as "Namaste,
let's talk about <Hindi phrase>" with uninterrupted accent shifts while
preserving emotional consistency. Subjective evaluation with 200 users reported
a mean opinion score (MOS) of 4.2/5 for cultural correctness, much better than
existing multilingual systems (p<0.01). This research makes cross-lingual
synthesis more feasible by showcasing scalable accent-emotion disentanglement,
with direct application in South Asian EdTech and accessibility software.