Preferências de uma Nação com Foco em Voz: Avaliação Pareada em Larga Escala e Análise de Preferências para Síntese de Voz em Línguas Indianas
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages
April 23, 2026
Autores: Srija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra
cs.AI
Resumo
A avaliação comparativa por pares baseada em crowdsourcing emergiu como uma abordagem escalável para avaliar modelos de base. No entanto, sua aplicação em sistemas de Texto para Fala introduz alta variância devido à diversidade linguística e à natureza multidimensional da percepção da fala. Apresentamos uma estrutura controlada e multidimensional de avaliação por pares para TTS multilíngue que combina controle linguístico com anotação fundamentada na percepção. Utilizando mais de 5 mil frases nativas e de código misto em 10 línguas indianas, avaliamos 7 sistemas de TTS state-of-the-art e coletamos mais de 120 mil comparações pareadas de mais de 1900 avaliadores nativos. Além da preferência geral, os avaliadores fornecem julgamentos em 6 dimensões perceptuais: inteligibilidade, expressividade, qualidade vocal, vivacidade, ruído e alucinações. Utilizando a modelagem de Bradley-Terry, construímos um ranking multilíngue, interpretamos a preferência humana usando análise SHAP e analisamos a confiabilidade do ranking, juntamente com os pontos fortes e os compromissos dos modelos nas dimensões perceptuais.
English
Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.