Sobre la Falacia de la Perplejidad Global por Token en la Evaluación de Modelos de Lenguaje Hablado
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
January 9, 2026
Autores: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI
Resumen
Los modelos generativos de lenguaje hablado preentrenados en audio crudo a gran escala pueden continuar un estímulo de habla con contenido apropiado mientras preservan atributos como el locutor y la emoción, funcionando como modelos base para diálogo hablado. En la literatura previa, estos modelos suelen evaluarse utilizando la "perplejidad de tokens global", que aplica directamente la formulación de perplejidad de texto a tokens de habla. Sin embargo, esta práctica pasa por alto diferencias fundamentales entre las modalidades de habla y texto, posiblemente conduciendo a una subestimación de las características del habla. En este trabajo, proponemos una variedad de métodos de evaluación basados en verosimilitud y generación que sirven como reemplazo de la ingenua perplejidad de tokens global. Demostramos que las evaluaciones propuestas reflejan más fielmente la calidad de generación percibida, como lo evidencia una correlación más fuerte con las puntuaciones de opinión media (MOS) evaluadas por humanos. Cuando se evalúa bajo las nuevas métricas, el panorama de rendimiento relativo de los modelos de lenguaje hablado se reconfigura, revelando una brecha significativamente reducida entre el modelo de mejor rendimiento y el nivel de referencia humano. En conjunto, estos resultados sugieren que una evaluación apropiada es crítica para valorar con precisión el progreso en el modelado del lenguaje hablado.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.