Sulla Fallacia della Perplessità Globale dei Token nella Valutazione dei Modelli di Lingua Parlata
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
January 9, 2026
Autori: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI
Abstract
I modelli generativi di linguaggio parlato preaddestrati su larga scala di audio grezzo sono in grado di continuare un prompt vocale con contenuti appropriati, preservando attributi come il parlante e l'emozione, fungendo da modelli di base per il dialogo parlato. Nella letteratura precedente, questi modelli sono spesso valutati utilizzando la "perplessità globale dei token", che applica direttamente la formulazione della perplessità testuale ai token vocali. Tuttavia, questa pratica trascura le differenze fondamentali tra le modalità del parlato e del testo, portando potenzialmente a una sottostima delle caratteristiche vocali. In questo lavoro, proponiamo una varietà di metodi di valutazione basati sulla verosimiglianza e sulla generazione che sostituiscono l'ingenuo uso della perplessità globale dei token. Dimostriamo che le valutazioni proposte riflettono più fedelmente la qualità generativa percepita, come evidenziato da correlazioni più forti con i punteggi di opinione media (MOS) valutati da esseri umani. Quando valutati secondo le nuove metriche, il panorama delle prestazioni relative dei modelli di linguaggio parlato si modifica, rivelando un divario significativamente ridotto tra il modello con le migliori prestazioni e il livello di riferimento umano. Nel complesso, questi risultati suggeriscono che una valutazione appropriata è fondamentale per stimare accuratamente i progressi nella modellazione del linguaggio parlato.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.