ゲームタイム:音声言語モデルにおける時間的ダイナミクスの評価
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
September 30, 2025
著者: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI
要旨
会話型音声言語モデル(SLM)は、リアルタイム音声インタラクションの有望なパラダイムとして台頭しつつある。しかし、その時間的ダイナミクス、すなわちタイミング、テンポ、同時発話を管理する能力は、会話の流暢性にとって重要な未評価の課題として残されている。このギャップを埋めるため、我々は「Game-Time Benchmark」を導入し、これらの時間的能力を体系的に評価するフレームワークを提案する。人間が言語活動を通じて言語を学ぶ方法に着想を得たGame-Timeは、基本的な指示追従タスクと、テンポの遵守や同期応答といった時間的制約を伴う高度なタスクで構成される。多様なSLMアーキテクチャの評価から、最先端のモデルは基本的なタスクをうまく処理する一方、多くの現代的なシステムは基本的な指示追従において依然として苦戦していることが明らかとなった。さらに重要なことに、時間的制約下ではほぼ全てのモデルが大幅に性能を低下させ、時間認識と全二重インタラクションにおける持続的な弱点が露呈した。Game-Time Benchmarkは、より時間認識能力の高い会話型AIの研究を導く基盤を提供する。デモとデータセットはプロジェクトウェブサイト(https://ga642381.github.io/Game-Time)で公開されている。
English
Conversational Spoken Language Models (SLMs) are emerging as a promising
paradigm for real-time speech interaction. However, their capacity of temporal
dynamics, including the ability to manage timing, tempo and simultaneous
speaking, remains a critical and unevaluated challenge for conversational
fluency. To address this gap, we introduce the Game-Time Benchmark, a framework
to systematically assess these temporal capabilities. Inspired by how humans
learn a language through language activities, Game-Time consists of basic
instruction-following tasks and advanced tasks with temporal constraints, such
as tempo adherence and synchronized responses. Our evaluation of diverse SLM
architectures reveals a clear performance disparity: while state-of-the-art
models handle basic tasks well, many contemporary systems still struggle with
fundamental instruction-following. More critically, nearly all models degrade
substantially under temporal constraints, exposing persistent weaknesses in
time awareness and full-duplex interaction. The Game-Time Benchmark provides a
foundation for guiding future research toward more temporally-aware
conversational AI. Demos and datasets are available on our project website
https://ga642381.github.io/Game-Time.