PSP: Um Benchmark Interpretável de Sotaque por Dimensão para Síntese de Voz de Textos em Línguas Indianas
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech
April 28, 2026
Autores: Venkata Pushpak Teja Menta
cs.AI
Resumo
As medidas padrão de avaliação de síntese de fala (TTS) avaliam a inteligibilidade (WER, CER) e a naturalidade geral (MOS, UTMOS), mas não quantificam o sotaque. Um sintetizador pode obter bons resultados em todas as quatro métricas e, ainda assim, soar não nativo em características que são fonêmicas na língua-alvo. Para línguas indianas (Índicas), essas características incluem a articulação retroflexa, a aspiração, o comprimento vocálico e o aproximante retroflexo do tâmil (letra 'zha'). Apresentamos o PSP, o *Phoneme Substitution Profile*, um benchmark de sotaque interpretável, por dimensão fonológica, para TTS em línguas Índicas. O PSP decompõe o sotaque em seis dimensões complementares: taxa de colapso retroflexo (RR), fidelidade de aspiração (AF), fidelidade de comprimento vocálico (LF), fidelidade do 'zha' tâmil (ZF), Distância de Áudio Fréchet (FAD) e divergência da assinatura prosódica (PSD). As primeiras quatro são medidas via alinhamento forçado mais sondas acústicas de centróide de falantes nativos sobre *embeddings* da camada 9 do Wav2Vec2-XLS-R; as duas últimas são distâncias distribucionais em nível de corpus. Nesta v1, avaliamos quatro sistemas comerciais e de código aberto (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) em conjuntos piloto de híndi, telugu e tâmil, com um quinto sistema (Praxy Voice) incluído nas três línguas, além de um estudo de caso R5->R6 no telugu. Três descobertas: (i) o colapso retroflexo cresce monotonicamente com a dificuldade fonológica híndi < telugu < tâmil (~1%, ~40%, ~68%); (ii) a ordenação do PSP diverge da ordenação do WER – os líderes comerciais em WER não lideram uniformemente em fidelidade retroflexa ou prosódica; (iii) nenhum sistema único é Pareto-ótimo em todas as seis dimensões. Disponibilizamos centróides de referência nativa (500 clipes por língua), *embeddings* de 1000 clipes para FAD, matrizes de características prosódicas de 500 clipes para PSD, conjuntos de dados de referência (*golden sets*) de 300 enunciados por língua, código de pontuação sob licença MIT e centróides sob CC-BY. A correlação formal com MOS é adiada para a v2; a v1 relata cinco sinais de consistência interna mais um teste de sanidade com áudio nativo.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.