Préférences d'une nation axée sur la voix : Évaluation par paires à grande échelle et analyse des préférences pour la synthèse vocale dans les langues indiennes

Résumé

L'évaluation par paires reposant sur la contribution collective (crowdsourcing) est apparue comme une approche évolutive pour évaluer les modèles de fondation. Cependant, son application à la synthèse vocale (Text to Speech, TTS) introduit une variance élevée en raison de la diversité linguistique et de la nature multidimensionnelle de la perception de la parole. Nous présentons un cadre d'évaluation par paires contrôlé et multidimensionnel pour la TTS multilingue, qui combine un contrôle linguistique avec une annotation fondée sur la perception. En utilisant plus de 5 000 phrases natives et en métissage de codes (code-mixing) couvrant 10 langues indiques, nous évaluons 7 systèmes TTS de pointe et recueillons plus de 120 000 comparaisons par paires auprès de plus de 1900 évaluateurs natifs. En plus de la préférence globale, les évaluateurs fournissent des jugements sur 6 dimensions perceptuelles : l'intelligibilité, l'expressivité, la qualité vocale, la vivacité, le bruit et les hallucinations. En utilisant la modélisation de Bradley-Terry, nous construisons un classement multilingue, interprétons la préférence humaine à l'aide de l'analyse SHAP et analysons la fiabilité du classement ainsi que les forces et les compromis des modèles à travers les dimensions perceptuelles.

English

Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.

Préférences d'une nation axée sur la voix : Évaluation par paires à grande échelle et analyse des préférences pour la synthèse vocale dans les langues indiennes

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Résumé

Support