ChatPaper.aiChatPaper

PSP: Eine interpretierbare, dimensionsbezogene Akzent-Benchmark für indische Text-zu-Sprache-Systeme

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

April 28, 2026
Autoren: Venkata Pushpak Teja Menta
cs.AI

Zusammenfassung

Standard-Text-to-Speech (TTS)-Evaluierungsmetriken messen Verständlichkeit (WER, CER) und allgemeine Natürlichkeit (MOS, UTMOS), quantifizieren jedoch keinen Akzent. Ein Synthesizer kann bei allen vier Metriken gut abschneiden und dennoch in Bezug auf Merkmale, die in der Zielsprache phonemisch sind, nicht muttersprachlich klingen. Für indische Sprachen umfassen diese Merkmale retroflexe Artikulation, Aspiration, Vokallänge und den tamilischen retroflexen Approximanten (Buchstabe zha). Wir stellen PSP, das Phoneme Substitution Profile, vor, einen interpretierbaren Akzent-Benchmark pro phonologischer Dimension für indische TTS-Systeme. PSP zerlegt den Akzent in sechs komplementäre Dimensionen: Retroflex-Kollapsrate (RR), Aspirations-Treue (AF), Vokallängen-Treue (LF), Tamil-Zha-Treue (ZF), Fréchet Audio Distance (FAD) und prosodische Signaturdivergenz (PSD). Die ersten vier werden mittels Forced Alignment plus akustischer Tests relativ zu nativer Sprecher-Centroiden über Wav2Vec2-XLS-R-Layer-9-Embeddings gemessen; die letzten beiden sind korpusweite Verteilungsdistanzen. In dieser v1 benchmarken wir vier kommerzielle und Open-Source-Systeme (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) an Hindi-, Telugu- und Tamil-Pilotdatensätzen, wobei ein fünftes System (Praxy Voice) in allen drei Sprachen sowie eine R5->R6-Fallstudie zu Telugu enthalten ist. Drei Ergebnisse: (i) Der Retroflex-Kollaps steigt monoton mit dem phonologischen Schwierigkeitsgrad Hindi < Telugu < Tamil (~1 %, ~40 %, ~68 %); (ii) Die PSP-Reihenfolge weicht von der WER-Reihenfolge ab – kommerzielle WER-Spitzenreiter führen nicht einheitlich bei Retroflex- oder Prosodie-Treue; (iii) Kein einzelnes System ist über alle sechs Dimensionen Pareto-optimal. Wir veröffentlichen native Referenz-Centroide (500 Clips pro Sprache), 1000-Clip-Embeddings für FAD, 500-Clip-prosodische Merkmalsmatrizen für PSD, 300-Äußerungen-Goldstandard-Datensätze pro Sprache, Bewertungscode unter MIT-Lizenz und Centroide unter CC-BY. Formale MOS-Korrelation wird auf v2 verschoben; v1 berichtet fünf interne Konsistenzsignale plus einen Sanity-Check mit Native-Audio.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.
PDF11May 1, 2026