ChatPaper.aiChatPaper

PSP: Un punto de referencia de acento por dimensión interpretable para la síntesis de voz a partir de texto en lenguas índicas

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

April 28, 2026
Autores: Venkata Pushpak Teja Menta
cs.AI

Resumen

Las medidas estándar de evaluación de texto a voz (TTS) evalúan la inteligibilidad (WER, CER) y la naturalidad general (MOS, UTMOS), pero no cuantifican el acento. Un sintetizador puede obtener buenos resultados en las cuatro métricas y, sin embargo, sonar no nativo en rasgos que son fonémicos en la lengua objetivo. Para las lenguas índicas, estos rasgos incluyen la articulación retrofleja, la aspiración, la longitud vocálica y el aproximante retroflejo del tamil (letra zha). Presentamos PSP, el Perfil de Sustitución de Fonemas, un benchmark de acento interpretable por dimensión fonológica para TTS en lenguas índicas. PSP descompone el acento en seis dimensiones complementarias: tasa de colapso retroflejo (RR), fidelidad de aspiración (AF), fidelidad de longitud vocálica (LF), fidelidad de la zha tamil (ZF), Distancia de Audio Fréchet (FAD) y divergencia de la firma prosódica (PSD). Las primeras cuatro se miden mediante alineación forzada más sondas acústicas de centroide de hablantes nativos sobre los *embeddings* de la capa 9 de Wav2Vec2-XLS-R; las dos últimas son distancias distribucionales a nivel de corpus. En esta v1, evaluamos cuatro sistemas comerciales y de código abierto (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) en conjuntos piloto de hindi, telugu y tamil, incluyendo un quinto sistema (Praxy Voice) en los tres idiomas, más un estudio de caso R5->R6 en telugu. Tres hallazgos: (i) el colapso retroflejo crece monótonamente con la dificultad fonológica hindi < telugu < tamil (~1%, ~40%, ~68%); (ii) el ordenamiento PSP diverge del ordenamiento WER: los líderes comerciales en WER no lideran uniformemente en fidelidad retrofleja o prosódica; (iii) ningún sistema único es Pareto-óptimo en las seis dimensiones. Publicamos los centroides de referencia nativos (500 clips por idioma), *embeddings* de 1000 clips para FAD, matrices de características prosódicas de 500 clips para PSD, conjuntos de prueba de 300 enunciados por idioma, código de evaluación bajo licencia MIT y centroides bajo CC-BY. La correlación MOS formal se pospone para la v2; la v1 reporta cinco señales de consistencia interna más una verificación de robustez con audio nativo.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.
PDF11May 1, 2026