Preferencias de una Nación con Enfoque en la Voz: Evaluación por Pares a Gran Escala y Análisis de Preferencias para la Síntesis de Voz en Lenguas Indias

Resumen

La evaluación comparativa por pares mediante crowdsourcing ha surgido como un enfoque escalable para evaluar modelos fundacionales. Sin embargo, su aplicación a la síntesis de voz (TTS) introduce una alta varianza debido a la diversidad lingüística y la naturaleza multidimensional de la percepción del habla. Presentamos un marco de evaluación comparativa multidimensional controlada para TTS multilingüe que combina el control lingüístico con una anotación basada en la percepción. Utilizando más de 5.000 frases nativas y de código mixto en 10 lenguas índicas, evaluamos 7 sistemas TTS de última generación y recopilamos más de 120.000 comparaciones por pares de más de 1900 evaluadores nativos. Además de la preferencia general, los evaluadores proporcionan valoraciones en 6 dimensiones perceptivas: inteligibilidad, expresividad, calidad de voz, vivacidad, ruido y alucinaciones. Mediante el modelo de Bradley-Terry, construimos una clasificación multilingüe, interpretamos la preferencia humana utilizando análisis SHAP y analizamos la fiabilidad de la clasificación junto con las fortalezas de los modelos y las compensaciones entre las dimensiones perceptivas.

English

Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.

Preferencias de una Nación con Enfoque en la Voz: Evaluación por Pares a Gran Escala y Análisis de Preferencias para la Síntesis de Voz en Lenguas Indias

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Resumen

Support