О заблуждении, связанном с использованием глобальной перплексии токенов при оценке разговорных языковых моделей
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
January 9, 2026
Авторы: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI
Аннотация
Генеративные модели устной речи, предварительно обученные на больших объемах необработанного аудио, способны продолжать речевой промпт с релевантным содержанием, сохраняя такие атрибуты, как говорящий и эмоциональная окраска, выступая в качестве базовых моделей для устного диалога. В предыдущих работах эти модели часто оценивались с помощью «глобальной перплексии токенов», которая напрямую применяет формулу перплексии текста к речевым токенам. Однако такой подход игнорирует фундаментальные различия между речевой и текстовой модальностями, что может приводить к недооценке речевых характеристик. В данной работе мы предлагаем ряд методов оценки на основе правдоподобия и генеративных подходов, которые заменяют наивную глобальную перплексию токенов. Мы демонстрируем, что предложенные методы оценки более точно отражают воспринимаемое качество генерации, что подтверждается более сильной корреляцией с субъективными оценками качества (MOS). При оценке по новым метрикам относительная картина производительности моделей устной речи меняется, выявляя значительное сокращение разрыва между лучшей моделью и человеческим уровнем. В совокупности эти результаты свидетельствуют о том, что корректная оценка критически важна для точного измерения прогресса в моделировании устной речи.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.