ChatPaper.aiChatPaper

PSP: интерпретируемый бенчмарк акцентирования по измерениям для индийского синтеза речи

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

April 28, 2026
Авторы: Venkata Pushpak Teja Menta
cs.AI

Аннотация

Стандартные методы оценки систем синтеза речи (TTS) измеряют разборчивость (WER, CER) и общую естественность (MOS, UTMOS), но не позволяют количественно оценить акцент. Синтезатор может показывать высокие результаты по всем четырем параметрам, но при этом звучать неносительно в аспектах, которые являются фонематически значимыми для целевого языка. Для индийских языков такими особенностями являются ретрофлексная артикуляция, аспирация, долгота гласных и ретрофлексный аппроксимант в тамильском языке (буква «zha»). Мы представляем PSP (Phoneme Substitution Profile) — интерпретируемый бенчмарк акцента по отдельным фонологическим параметрам для индийских TTS. PSP декомпозирует акцент на шесть взаимодополняющих измерений: частоту коллапса ретрофлексных (RR), верность аспирации (AF), верность долготы гласных (LF), верность тамильского «zha» (ZF), расстояние Фреше для аудио (FAD) и дивергенцию просодической сигнатуры (PSD). Первые четыре измеряются с помощью вынужденного выравнивания и акустических проб на основе центроидов носителей языка в пространстве эмбеддингов слоя 9 модели Wav2Vec2-XLS-R; последние два представляют собой корпусные распределительные расстояния. В данной версии v1 мы проводим сравнительный анализ четырех коммерческих и открытых систем (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) на пилотных наборах данных для хинди, телугу и тамильского языка, с включением пятой системы (Praxy Voice) для всех трех языков, а также тематическое исследование R5->R6 для телугу. Три ключевых вывода: (i) частота коллапса ретрофлексных монотонно возрастает с увеличением фонологической сложности: хинди < телугу < тамильский (~1%, ~40%, ~68%); (ii) порядок систем по PSP расходится с порядком по WER — лидеры по WER среди коммерческих систем не являются единообразными лидерами по верности ретрофлексных или просодики; (iii) ни одна система не является Парето-оптимальной по всем шести измерениям. Мы публикуем референсные центроиды носителей (500 клипов на язык), эмбеддинги 1000 клипов для FAD, матрицы просодических признаков 500 клипов для PSD, золотые эталонные наборы из 300 высказываний на язык, код оценки под лицензией MIT и центроиды под лицензией CC-BY. Формальное исследование корреляции с MOS отложено до версии v2; в v1 приводятся пять сигналов внутренней согласованности, а также проверка на аудио носителей.
English
Standard text-to-speech (TTS) evaluation measures intelligibility (WER, CER) and overall naturalness (MOS, UTMOS) but does not quantify accent. A synthesiser may score well on all four yet sound non-native on features that are phonemic in the target language. For Indic languages, these features include retroflex articulation, aspiration, vowel length, and the Tamil retroflex approximant (letter zha). We present PSP, the Phoneme Substitution Profile, an interpretable, per-phonological-dimension accent benchmark for Indic TTS. PSP decomposes accent into six complementary dimensions: retroflex collapse rate (RR), aspiration fidelity (AF), vowel-length fidelity (LF), Tamil-zha fidelity (ZF), Frechet Audio Distance (FAD), and prosodic signature divergence (PSD). The first four are measured via forced alignment plus native-speaker-centroid acoustic probes over Wav2Vec2-XLS-R layer-9 embeddings; the latter two are corpus-level distributional distances. In this v1 we benchmark four commercial and open-source systems (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) on Hindi, Telugu, and Tamil pilot sets, with a fifth system (Praxy Voice) included on all three languages, plus an R5->R6 case study on Telugu. Three findings: (i) retroflex collapse grows monotonically with phonological difficulty Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP ordering diverges from WER ordering -- commercial WER-leaders do not uniformly lead on retroflex or prosodic fidelity; (iii) no single system is Pareto-optimal across all six dimensions. We release native reference centroids (500 clips per language), 1000-clip embeddings for FAD, 500-clip prosodic feature matrices for PSD, 300-utterance golden sets per language, scoring code under MIT, and centroids under CC-BY. Formal MOS-correlation is deferred to v2; v1 reports five internal-consistency signals plus a native-audio sanity check.
PDF11May 1, 2026