PSP: un benchmark interpretabile per l'accento per dimensione nel text-to-speech per le lingue indiane
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech
April 28, 2026
Autori: Venkata Pushpak Teja Menta
cs.AI
Abstract
Le misure standard di valutazione della sintesi vocale (TTS) valutano l'intelligibilità (WER, CER) e la naturalezza complessiva (MOS, UTMOS) ma non quantificano l'accento. Un sintetizzatore può ottenere buoni punteggi su tutti e quattro i parametri, pur risultando non-nativo per quanto riguarda tratti che sono fonemici nella lingua target. Per le lingue indiane, questi tratti includono l'articolazione retroflessa, l'aspirazione, la lunghezza vocalica e l'approssimante retroflessa del tamil (lettera zha). Presentiamo il PSP, il Profilo di Sostituzione Fonemica, un benchmark interpretabile e per-dimensione-fonologica per l'accento nei sistemi TTS per lingue indiane. Il PSP scompone l'accento in sei dimensioni complementari: tasso di collasso retroflesso (RR), fedeltà dell'aspirazione (AF), fedeltà della lunghezza vocalica (LF), fedeltà della zha tamil (ZF), Distanza Audio di Fréchet (FAD) e divergenza della firma prosodica (PSD). Le prime quattro sono misurate tramite allineamento forzato più sonde acustiche basate su centroidi di parlanti nativi sugli embedding dello strato 9 di Wav2Vec2-XLS-R; le ultime due sono distanze distributive a livello di corpus. In questa versione 1 valutiamo quattro sistemi commerciali e open-source (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) su set pilota di hindi, telugu e tamil, con un quinto sistema (Praxy Voice) incluso per tutte e tre le lingue, più uno studio di caso R5->R6 sul telugu. Tre risultati: (i) il collasso retroflesso cresce monotonicamente con la difficoltà fonologica hindi < telugu < tamil (~1%, ~40%, ~68%); (ii) l'ordinamento del PSP diverge da quello del WER – i leader commerciali nel WER non sono uniformemente in testa per la fedeltà retroflessa o prosodica; (iii) nessun singolo sistema è Pareto-ottimale su tutte e sei le dimensioni. Rilasciamo i centroidi di riferimento nativi (500 clip per lingua), embedding di 1000 clip per il FAD, matrici di feature prosodiche di 500 clip per il PSD, golden set di 300 espressioni per lingua, codice di valutazione sotto licenza MIT e centroidi sotto licenza CC-BY. La correlazione formale con il MOS è rinviata alla v2; la v1 riporta cinque segnali di coerenza interna più un controllo di verità con audio nativo.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.