Präferenzen einer Voice-First-Nation: Groß angelegte paarweise Evaluierung und Präferenzanalyse für Sprachsynthese in indischen Sprachen

Zusammenfassung

Crowdsourcing-basierte paarweise Bewertung hat sich als skalierbarer Ansatz zur Evaluierung von Foundation Models etabliert. Die Anwendung auf Text-to-Speech (TTS) führt jedoch aufgrund der linguistischen Diversität und der multidimensionalen Natur der Sprachwahrnehmung zu einer hohen Varianz. Wir präsentieren ein kontrolliertes, multidimensionales Framework für die paarweise Evaluation von multilingualen TTS-Systemen, das linguistische Kontrolle mit wahrnehmungsbasierten Annotationen verbindet. Unter Verwendung von über 5.000 muttersprachlichen und Code-Mixed-Sätzen aus 10 indischen Sprachen evaluieren wir 7 state-of-the-art TTS-Systeme und sammeln über 120.000 paarweise Vergleiche von mehr als 1900 muttersprachlichen Bewertern. Zusätzlich zur Gesamtpräferenz geben die Bewerter Urteile über 6 perzeptive Dimensionen ab: Verständlichkeit, Ausdrucksstärke, Stimmqualität, Lebendigkeit, Störgeräusche und Halluzinationen. Mithilfe von Bradley-Terry-Modellierung erstellen wir ein multilinguales Leaderboard, interpretieren die menschliche Präferenz mittels SHAP-Analyse und untersuchen die Zuverlässigkeit des Leaderboards sowie die Stärken und Kompromisse der Modelle über die perzeptiven Dimensionen hinweg.

English

Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.

Präferenzen einer Voice-First-Nation: Groß angelegte paarweise Evaluierung und Präferenzanalyse für Sprachsynthese in indischen Sprachen

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Zusammenfassung

Support