Sobre a Falácia da Perplexidade por Token Global na Avaliação de Modelos de Linguagem Falada
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
January 9, 2026
Autores: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI
Resumo
Os modelos generativos de linguagem falada pré-treinados em áudio bruto em larga escala podem continuar um prompt de fala com conteúdo apropriado, preservando atributos como locutor e emoção, servindo como modelos de base para diálogo falado. Na literatura anterior, esses modelos são frequentemente avaliados usando a "perplexidade global de tokens", que aplica diretamente a formulação de perplexidade de texto aos tokens de fala. No entanto, essa prática ignora diferenças fundamentais entre as modalidades de fala e texto, possivelmente levando a uma subestimação das características da fala. Neste trabalho, propomos uma variedade de métodos de avaliação baseados em verossimilhança e geração que substituem a ingênua perplexidade global de tokens. Demonstramos que as avaliações propostas refletem mais fielmente a qualidade geracional percebida, conforme evidenciado por correlações mais fortes com escores de opinião média (MOS) avaliados por humanos. Quando avaliados sob as novas métricas, o panorama de desempenho relativo dos modelos de linguagem falada é reconfigurado, revelando uma redução significativa na diferença entre o modelo de melhor desempenho e a linha de base humana. Juntos, esses resultados sugerem que a avaliação adequada é crítica para avaliar com precisão o progresso na modelagem de linguagem falada.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.