ChatPaper.aiChatPaper

구어 언어 모델 평가에서 전역 토큰 복잡성의 오류에 관한 연구

On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

January 9, 2026
저자: Jeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
cs.AI

초록

대규모 원시 오디오로 사전 학습된 생성형 음성 언어 모델은 화자나 감정과 같은 속성을 보존하면서 적절한 내용으로 음성 프롬프트를 이어갈 수 있어, 음성 대화를 위한 기초 모델로 기능합니다. 기존 문헌에서는 이러한 모델을 '전역 토큰 복잡성'을 사용하여 평가하는 경우가 많으며, 이는 텍스트 복잡성 공식을 음성 토큰에 직접 적용합니다. 그러나 이러한 관행은 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 음성 특성을 과소평가할 가능성이 있습니다. 본 연구에서는 단순한 전역 토큰 복잡성을 대체할 수 있는 다양한 가능성 기반 및 생성 기반 평가 방법을 제안합니다. 제안된 평가 방법이 인간이 평가한 평균 의견 점수와 더 강한 상관관계를 보임으로써 지각된 생성 품질을 더 충실히 반영한다는 것을 입증합니다. 새로운 측정 기준으로 평가할 때, 음성 언어 모델의 상대적 성능 지형이 재구성되어 최고 성능 모델과 인간 상한선 간의 격차가 현저히 줄어드는 것을 확인할 수 있습니다. 이러한 결과를 종합해 보면, 음성 언어 모델링의 진전을 정확히 평가하기 위해 적절한 평가가 중요하다는 것을 시사합니다.
English
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preserving attributes like speaker and emotion, serving as foundation models for spoken dialogue. In prior literature, these models are often evaluated using ``global token perplexity'', which directly applies the text perplexity formulation to speech tokens. However, this practice overlooks fundamental differences between speech and text modalities, possibly leading to an underestimation of the speech characteristics. In this work, we propose a variety of likelihood- and generative-based evaluation methods that serve in place of naive global token perplexity. We demonstrate that the proposed evaluations more faithfully reflect perceived generation quality, as evidenced by stronger correlations with human-rated mean opinion scores (MOS). When assessed under the new metrics, the relative performance landscape of spoken language models is reshaped, revealing a significantly reduced gap between the best-performing model and the human topline. Together, these results suggest that appropriate evaluation is critical for accurately assessing progress in spoken language modeling.
PDF23January 31, 2026