PSP: 인도 언어 텍스트-음성 변환을 위한 차원별 해석 가능 억양 벤치마크
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech
April 28, 2026
저자: Venkata Pushpak Teja Menta
cs.AI
초록
표준 텍스트-음성 변환(TTS) 평가는 명료도(WER, CER)와 전반적 자연스러움(MOS, UTMOS)을 측정하지만 액센트는 정량화하지 않습니다. 합성기가 네 가지 지표 모두에서 우수한 점수를 받더라도 목표 언어에서 음소론적으로 중요한 특징에서 비원어민처럼 들릴 수 있습니다. 인도 언어의 경우, 이러한 특징에는 권설음, 유기음, 모음 길이, 타밀어 권설 접근음(문자 'zha')이 포함됩니다. 본 논문은 인도 TTS를 위한 해석 가능한 음운론적 차원별 액센트 벤치마크인 PSP(Phoneme Substitution Profile)를 제안합니다. PSP는 액센트를 여섯 가지 상호 보완적 차원으로 분해합니다: 권설음 붕괴율(RR), 유기음 정확도(AF), 모음 길이 정확도(LF), 타밀어-zha 정확도(ZF), 프레셰 오디오 거리(FAD), 운율 특성 발산(PSD). 처음 네 가지는 Wav2Vec2-XLS-R 9번째 레이어 임베딩에 대해 강제 정렬 및 원어민 중심 음향 프로빙을 통해 측정되며, 나머지 두 가지는 코퍼스 수준 분포 거리입니다. 이 v1에서는 4개의 상용 및 오픈소스 시스템(ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS)을 힌디어, 텔루구어, 타밀어 파일럿 세트로 벤치마크하고, 다섯 번째 시스템(Praxy Voice)은 세 언어 모두에 포함하며, 텔루구어 R5->R6 사례 연구를 추가했습니다. 세 가지 주요 결과: (i) 권설음 붕괴율은 음운론적 난이도(힌디어 < 텔루구어 < 타밀어)에 따라 단조 증가함(~1%, ~40%, ~68%); (ii) PSP 순위는 WER 순위와 다름 – 상용 WER 선두 시스템이 권설음 또는 운율 정확도에서 일관되게领先하지 않음; (iii) 단일 시스템이 여섯 차원 모두에서 파레토 최적이 아님. 본 논문은 원어민 기준 중심점(언어당 500 클립), FAD용 1000 클립 임베딩, PSD용 500 클립 운율 특성 행렬, 언어당 300 발화 골든 세트, MIT 라이선스 채점 코드, CC-BY 라이선스 중심점을 공개합니다. 공식 MOS 상관관계 분석은 v2로 연기되며, v1은 5가지 내적 일관성 신호와 원어민 오디오 정성 검증 결과를 보고합니다.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.