Preferenze di una Nazione a Comando Vocale: Valutazione su Vastissima Scala a Coppie e Analisi delle Preferenze per il TTS nelle Lingue Indiane
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages
April 23, 2026
Autori: Srija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra
cs.AI
Abstract
La valutazione pairwise crowdsourced è emersa come approccio scalabile per valutare i modelli di base. Tuttavia, applicarla alla sintesi vocale (Text-to-Speech, TTS) introduce un'elevata varianza a causa della diversità linguistica e della natura multidimensionale della percezione del parlato. Presentiamo un framework controllato di valutazione pairwise multidimensionale per TTS multilingue che combina il controllo linguistico con annotazioni basate sulla percezione. Utilizzando oltre 5.000 frasi native e in code-mixing in 10 lingue indiane, valutiamo 7 sistemi TTS all'avanguardia e raccogliamo oltre 120.000 confronti pairwise da più di 1900 valutatori nativi. Oltre alla preferenza complessiva, i valutatori forniscono giudizi su 6 dimensioni percettive: intelligibilità, espressività, qualità della voce, vivacità, rumore e allucinazioni. Utilizzando il modello di Bradley-Terry, costruiamo una classifica multilingue, interpretiamo la preferenza umana mediante l'analisi SHAP e analizziamo l'affidabilità della classifica insieme ai punti di forza e ai compromessi dei modelli attraverso le dimensioni percettive.
English
Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.