PSP: Een interpreteerbaar per-dimensie accentbenchmark voor Indic tekst-naar-spraak
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech
April 28, 2026
Auteurs: Venkata Pushpak Teja Menta
cs.AI
Samenvatting
Standaard tekst-naar-spraak (TNT) evaluatie meet de verstaanbaarheid (WER, CER) en de algemene natuurlijkheid (MOS, UTMOS), maar kwantificeert geen accent. Een synthesizer kan goed scoren op alle vier, maar toch niet-moedertaalklinkend zijn op kenmerken die fonemisch zijn in de doeltaal. Voor Indiase talen zijn dit kenmerken zoals retroflexe articulatie, aspiratie, klinkerlengte en de Tamil retroflexe approksimant (letter zha). Wij presenteren PSP, het Phoneme Substitution Profile, een interpreteerbare, per-fonologische-dimensie accentbenchmark voor Indiase TNT. PSP ontleedt accent in zes complementaire dimensies: retroflexe collapsfrequentie (RR), aspiratietrouw (AF), klinkerlengtetrouw (LF), Tamil-zha-trouw (ZF), Fréchet Audio Distance (FAD) en prosodische signatuurdivergentie (PSD). De eerste vier worden gemeten via geforceerde alignering plus akoestische probes ten opzichte van moedertaalspreker-centroïden over Wav2Vec2-XLS-R laag-9 embeddings; de laatste twee zijn corpusniveau distributie-afstanden. In deze v1 benchmarken we vier commerciële en open-source systemen (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) op Hindi, Telugu en Tamil pilot sets, met een vijfde systeem (Praxy Voice) meegenomen voor alle drie de talen, plus een R5->R6 casestudy voor Telugu. Drie bevindingen: (i) retroflexe collaps neemt monotoon toe met fonologische moeilijkheidsgraad Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP-rangschikking wijkt af van WER-rangschikking – commerciële WER-leiders leiden niet uniform op retroflexe of prosodische trouw; (iii) geen enkel systeem is Pareto-optimaal over alle zes dimensies. Wij publiceren moedertaalreferentie-centroïden (500 clips per taal), 1000-clip embeddings voor FAD, 500-clip prosodische featurematrices voor PSD, 300-utterance gouden sets per taal, scoringscode onder MIT, en centroïden onder CC-BY. Formele MOS-correlatie wordt uitgesteld naar v2; v1 rapporteert vijf interne-consistentiesignalen plus een moedertaalaudio-sanitycheck.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.