ChatPaper.aiChatPaper

PSP: インド語テキスト読み上げのための次元単位で解釈可能なアクセントベンチマーク

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

April 28, 2026
著者: Venkata Pushpak Teja Menta
cs.AI

要旨

標準的なテキスト読み上げ(TTS)評価では、明瞭度(WER、CER)と全体的な自然さ(MOS、UTMOS)が測定されるが、アクセントは定量化されない。合成器がこれら4つの指標で高得点を得ていても、対象言語において音韻的である特徴において非母語話者的に聞こえる可能性がある。インド系言語において、これらの特徴には、そり舌調音、有気音、母音の長さ、およびタミル語のそり舌接近音(文字zha)が含まれる。本論文では、PSP(Phoneme Substitution Profile)を提案する。これは、インド系TTSのための解釈可能な、音韻的次元ごとのアクセントベンチマークである。PSPはアクセントを6つの相補的な次元に分解する:そり舌崩壊率(RR)、有気音忠実度(AF)、母音長さ忠実度(LF)、タミル語zha忠実度(ZF)、Frèchet Audio Distance(FAD)、および韻律的特徴発散(PSD)。最初の4つは、強制アライメントとWav2Vec2-XLS-Rの第9層埋め込みに対する母語話者セントロイドに基づく音響プローブを用いて測定され、後者2つはコーパスレベルの分布距離である。このv1では、ヒンディー語、テルグ語、タミル語のパイロットセットに対して4つの商用およびオープンソースシステム(ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS)をベンチマークし、5番目のシステム(Praxy Voice)を3言語全てに追加、さらにテルグ語におけるR5→R6のケーススタディを含める。3つの発見:(i) そり舌崩壊は音韻的難易度(ヒンディー語 < テルグ語 < タミル語)に応じて単調に増加する(~1%、~40%、~68%)、(ii) PSPの順序はWERの順序と異なる――WERで優位な商用システムが、そり舌忠実度や韻律忠実度で一様に優位ではない、(iii) 全6次元においてパレート最適な単一のシステムは存在しない。我々は、母語参照セントロイド(言語あたり500クリップ)、FAD計算用の1000クリップの埋め込み、PSD計算用の500クリップの韻律特徴量行列、言語あたり300発話のゴールデンセット、MITライセンスのスコアリングコード、およびCC-BYライセンスのセントロイドを公開する。正式なMOS相関はv2に延期し、v1では5つの内的整合性の信号と母語音声を用いたサニティチェックを報告する。
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.
PDF11May 1, 2026