Game-Time: Оценка временной динамики в моделях разговорного языка
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
September 30, 2025
Авторы: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI
Аннотация
Разговорные модели устной речи (Spoken Language Models, SLMs) становятся перспективным подходом для взаимодействия в режиме реального времени. Однако их способность управлять временными аспектами, включая контроль времени, темпа и одновременной речи, остается важной и недостаточно изученной проблемой для обеспечения беглости диалога. Чтобы устранить этот пробел, мы представляем Game-Time Benchmark — фреймворк для систематической оценки этих временных возможностей. Вдохновленные тем, как люди изучают язык через языковые активности, Game-Time включает базовые задачи на выполнение инструкций и более сложные задачи с временными ограничениями, такие как соблюдение темпа и синхронизированные ответы. Наша оценка различных архитектур SLM выявила явный разрыв в производительности: хотя современные модели хорошо справляются с базовыми задачами, многие из них по-прежнему испытывают трудности с выполнением элементарных инструкций. Что еще важнее, почти все модели значительно ухудшают свои показатели при временных ограничениях, что выявляет устойчивые слабости в осознании времени и поддержке полнодуплексного взаимодействия. Game-Time Benchmark закладывает основу для направления будущих исследований в сторону создания более временно-осознанных разговорных ИИ. Демонстрации и наборы данных доступны на нашем проектом сайте https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising
paradigm for real-time speech interaction. However, their capacity of temporal
dynamics, including the ability to manage timing, tempo and simultaneous
speaking, remains a critical and unevaluated challenge for conversational
fluency. To address this gap, we introduce the Game-Time Benchmark, a framework
to systematically assess these temporal capabilities. Inspired by how humans
learn a language through language activities, Game-Time consists of basic
instruction-following tasks and advanced tasks with temporal constraints, such
as tempo adherence and synchronized responses. Our evaluation of diverse SLM
architectures reveals a clear performance disparity: while state-of-the-art
models handle basic tasks well, many contemporary systems still struggle with
fundamental instruction-following. More critically, nearly all models degrade
substantially under temporal constraints, exposing persistent weaknesses in
time awareness and full-duplex interaction. The Game-Time Benchmark provides a
foundation for guiding future research toward more temporally-aware
conversational AI. Demos and datasets are available on our project website
https://ga642381.github.io/Game-Time.