話し言葉モデル評価におけるグローバルトークンパープレキシティの誤謬について
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
January 9, 2026
著者: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI
要旨
大規模な生音声データで事前学習された生成的音声言語モデルは、話者や感情などの属性を保持しながら適切な内容で音声プロンプトを継続でき、音声対話の基盤モデルとして機能する。従来の研究では、これらのモデルは「グローバルトークンパープレキシティ」を用いて評価されることが多いが、これはテキストのパープレキシティ計算式を音声トークンに直接適用したものである。しかし、この手法は音声とテキストのモダリティ間の本質的な差異を見落としており、音声特性の過小評価を招く可能性がある。本研究では、単純なグローバルトークンパープレキシティに代わる、様々な尤度ベースおよび生成ベースの評価手法を提案する。提案する評価手法が、人間による平均オピニオンスコア(MOS)との強い相関によって示されるように、知覚される生成品質をより忠実に反映することを実証する。新たな指標による評価では、音声言語モデルの相対的性能状況が再構築され、最高性能モデルと人間のトップラインとの差が大幅に縮小することが明らかになった。これらの結果は、音声言語モデリングの進歩を正確に評価するためには適切な評価が重要であることを示唆している。
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.