Über den Trugschluss der globalen Token-Perplexität bei der Evaluation gesprochener Sprachmodelle
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
January 9, 2026
papers.authors: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI
papers.abstract
Generative Sprachmodelle, die auf umfangreichen Rohaudiodaten vortrainiert wurden, können eine Sprachaufforderung mit passendem Inhalt fortsetzen und dabei Eigenschaften wie Sprecheridentität und Emotion bewahren. Sie fungieren somit als Basismodelle für gesprochene Dialoge. In der bisherigen Literatur werden diese Modelle häufig anhand der „globalen Token-Perplexität“ bewertet, bei der die Formulierung der Text-Perplexität direkt auf Sprach-Tokens angewendet wird. Diese Praxis übersieht jedoch fundamentale Unterschiede zwischen den Modalitäten Sprache und Text, was möglicherweise zu einer Unterschätzung der Sprachcharakteristika führt. In dieser Arbeit schlagen wir eine Reihe von bewertungsbasierten und generativen Evaluierungsmethoden vor, die anstelle der naiven globalen Token-Perplexität verwendet werden können. Wir zeigen, dass die vorgeschlagenen Evaluationen die wahrgenommene Generierungsqualität genauer widerspiegeln, was sich in stärkeren Korrelationen mit menschlich bewerteten Mean Opinion Scores (MOS) zeigt. Bei der Bewertung mit den neuen Metriken verändert sich das relative Leistungsbild der Sprachmodelle erheblich, wobei sich die Kluft zwischen dem leistungsstärksten Modell und der menschlichen Topline deutlich verringert. Zusammengenommen deuten diese Ergebnisse darauf hin, dass eine angemessene Evaluation entscheidend ist, um Fortschritte in der Sprachmodellierung genau zu bewerten.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.