ChatPaper.aiChatPaper

Sur le sophisme de la perplexité globale par token dans l'évaluation des modèles de langage oral

On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

January 9, 2026
papers.authors: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI

papers.abstract

Les modèles génératifs de langage parlé pré-entraînés sur de larges corpus d'audio brut peuvent poursuivre un énoncé oral avec un contenu approprié tout en préservant des attributs comme le locuteur et l'émotion, servant ainsi de modèles de base pour le dialogue oral. Dans la littérature antérieure, ces modèles sont souvent évalués à l'aide de la « perplexité globale des tokens », qui applique directement la formulation de la perplexité textuelle aux tokens vocaux. Cependant, cette pratique néglige les différences fondamentales entre les modalités de la parole et du texte, pouvant conduire à une sous-estimation des caractéristiques vocales. Dans ce travail, nous proposons diverses méthodes d'évaluation basées sur la vraisemblance et la génération, destinées à remplacer la perplexité naïve des tokens globaux. Nous démontrons que les évaluations proposées reflètent plus fidèlement la qualité perçue de la génération, comme en témoignent des corrélations plus fortes avec les scores d'opinion moyens (MOS) évalués par des humains. Lorsqu'elles sont évaluées selon les nouvelles métriques, la hiérarchie de performance relative des modèles de langage parlé est remodelée, révélant un écart considérablement réduit entre le modèle le plus performant et la référence humaine. Ensemble, ces résultats suggèrent qu'une évaluation appropriée est cruciale pour estimer avec précision les progrès dans la modélisation du langage parlé.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.
PDF23January 31, 2026