ChatPaper.aiChatPaper

Over de misvatting van globale tokenperplexiteit bij de evaluatie van gesproken taalmodel

On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

January 9, 2026
Auteurs: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI

Samenvatting

Generatieve gesproken-taalmodellen die zijn voorgetraind op grootschalige ruiste audio, kunnen een spraakprompt voortzetten met passende inhoud, waarbij kenmerken zoals spreker en emotie behouden blijven. Deze modellen fungeren als foundation-modellen voor gesproken dialoog. In eerdere literatuur worden deze modellen vaak geëvalueerd met behulp van "globale tokenperplexiteit", waarbij de formulering voor tekstperplexiteit direct wordt toegepast op spraaktokens. Deze praktijk negeert echter fundamentele verschillen tussen spraak- en tekstmodaliteiten, wat mogelijk leidt tot een onderschatting van de spraakkenmerken. In dit werk stellen we een reeks waarschijnlijkheids- en generatie-gebaseerde evaluatiemethoden voor die dienen als vervanging voor de naïeve globale tokenperplexiteit. We tonen aan dat de voorgestelde evaluaties de waargenomen generatiekwaliteit beter weerspiegelen, wat blijkt uit sterkere correlaties met door mensen beoordeelde mean opinion scores (MOS). Wanneer beoordeeld volgens de nieuwe metrieken, verandert het relatieve prestatielandschap van gesproken-taalmodellen aanzienlijk, waarbij de kloof tussen het best presterende model en de menselijke toplijn aanzienlijk kleiner wordt. Samen suggereren deze resultaten dat een passende evaluatie cruciaal is voor een accurate beoordeling van de vooruitgang in gesproken-taalmodelering.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.
PDF23January 31, 2026