Voorkeuren van een Stem-Eerst Natie: Grootschalige Paarsgewijze Evaluatie en Preferentie-analyse voor Tekst-naar-Spraak in Indiase Talen
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages
April 23, 2026
Auteurs: Srija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra
cs.AI
Samenvatting
Crowdsourced paarsgewijze evaluatie is naar voren gekomen als een schaalbare aanpak voor het beoordelen van foundation-modellen. Het toepassen ervan op Text-to-Speech (TTS) introduceert echter een hoge variantie vanwege de linguïstische diversiteit en de multidimensionale aard van spraakperceptie. Wij presenteren een gecontroleerd multidimensionaal paarsgewijze evaluatieraamwerk voor meertalige TTS dat linguïstische controle combineert met perceptueel onderbouwde annotatie. Met behulp van meer dan 5.000 zinnen in moedertaal en code-switching in 10 Indiase talen evalueren we 7 state-of-the-art TTS-systemen en verzamelen we meer dan 120.000 paarsgewijze vergelijkingen van meer dan 1900 moedertaalbeoordelaars. Naast een algemene voorkeur verstrekken de beoordelaars ook oordelen over 6 perceptuele dimensies: verstaanbaarheid, expressiviteit, stemkwaliteit, levendigheid, ruis en hallucinaties. Met behulp van Bradley-Terry-modellering construeren we een meertalig leaderboard, interpreteren we menselijke voorkeur met SHAP-analyse en analyseren we de betrouwbaarheid van het leaderboard naast de sterke punten en afwegingen van modellen over de perceptuele dimensies heen.
English
Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.