Предпочтения нации, ориентированной на голос: крупномасштабное парное оценивание и анализ предпочтений для синтеза речи на индийских языках
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages
April 23, 2026
Авторы: Srija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra
cs.AI
Аннотация
Краудсорсинговая парная оценка стала масштабируемым методом для оценки базовых моделей. Однако её применение к системам преобразования текста в речь (TTS) сопряжено с высокой дисперсией из-за лингвистического разнообразия и многомерной природы восприятия речи. Мы представляем контролируемую многомерную систему парного оценивания для многоязычного TTS, которая сочетает лингвистический контроль с перцептивно обоснованной аннотацией. Используя более 5 тысяч предложений на родных языках и с код-свитчингом на 10 индийских языках, мы оценили 7 современных TTS-систем и собрали свыше 120 тысяч парных сравнений от более чем 1900 носителей языков. Помимо общего предпочтения, оценщики предоставляли суждения по шести перцептивным измерениям: разборчивость, выразительность, качество голоса, естественность, уровень шума и наличие артефактов (галлюцинаций). С помощью модели Брэдли-Терри мы построили многоязычный рейтинг, интерпретировали человеческие предпочтения с помощью SHAP-анализа и оценили надежность рейтинга вместе с сильными сторонами моделей и компромиссами между перцептивными измерениями.
English
Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.