PSP : Un benchmark d'accent interprétable par dimension pour la synthèse vocale en langues indiennes
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech
April 28, 2026
Auteurs: Venkata Pushpak Teja Menta
cs.AI
Résumé
Les mesures d'évaluation standard de la synthèse vocale (TTS) évaluent l'intelligibilité (WER, CER) et le naturel global (MOS, UTMOS) mais ne quantifient pas l'accent. Un synthétiseur peut obtenir de bons scores sur ces quatre critères tout en produisant un son non natif sur des traits phonémiques de la langue cible. Pour les langues indiennes, ces traits incluent l'articulation rétroflexe, l'aspiration, la longueur vocalique et l'approximante rétroflexe du tamoul (lettre zha). Nous présentons le PSP (Profil de Substitution de Phonèmes), un benchmark d'accent interprétable par dimension phonologique pour le TTS des langues indiennes. Le PSP décompose l'accent en six dimensions complémentaires : le taux d'effondrement rétroflexe (RR), la fidélité de l'aspiration (AF), la fidélité de la longueur vocalique (LF), la fidélité du zha tamoul (ZF), la distance de Fréchet audio (FAD) et la divergence de signature prosodique (PSD). Les quatre premières sont mesurées via un alignement forcé et des sondes acoustiques de centroïdes de locuteurs natifs sur les embeddings de la couche 9 de Wav2Vec2-XLS-R ; les deux dernières sont des distances distributionnelles au niveau du corpus. Dans cette version 1, nous évaluons quatre systèmes commerciaux et open-source (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) sur des jeux de données pilotes en hindi, télougou et tamoul, avec un cinquième système (Praxy Voice) inclus pour les trois langues, ainsi qu'une étude de cas R5->R6 sur le télougou. Trois résultats : (i) l'effondrement rétroflexe croît de manière monotone avec la difficulté phonologique hindi < télougou < tamoul (~1%, ~40%, ~68%) ; (ii) l'ordre du PSP diverge de l'ordre WER – les leaders commerciaux en WER ne mènent pas uniformément sur la fidélité rétroflexe ou prosodique ; (iii) aucun système unique n'est Pareto-optimal sur les six dimensions. Nous publions les centroïdes de référence natifs (500 clips par langue), les embeddings de 1000 clips pour la FAD, les matrices de caractéristiques prosodiques de 500 clips pour la PSD, des jeux de données de référence de 300 énoncés par langue, le code de calcul sous licence MIT et les centroïdes sous licence CC-BY. La corrélation formelle avec le MOS est reportée à la version 2 ; la version 1 présente cinq signaux de cohérence interne ainsi qu'un test de validation sur audio natif.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.