Game-Time: Evaluación de la Dinámica Temporal en Modelos de Lenguaje Hablado
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
September 30, 2025
Autores: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI
Resumen
Los Modelos de Lenguaje Conversacional (SLMs, por sus siglas en inglés) están surgiendo como un paradigma prometedor para la interacción hablada en tiempo real. Sin embargo, su capacidad para manejar dinámicas temporales, incluyendo la gestión del tiempo, el tempo y el habla simultánea, sigue siendo un desafío crítico y no evaluado para la fluidez conversacional. Para abordar esta brecha, presentamos el Benchmark Game-Time, un marco para evaluar sistemáticamente estas capacidades temporales. Inspirado en cómo los humanos aprenden un idioma a través de actividades lingüísticas, Game-Time consiste en tareas básicas de seguimiento de instrucciones y tareas avanzadas con restricciones temporales, como la adherencia al tempo y las respuestas sincronizadas. Nuestra evaluación de diversas arquitecturas de SLM revela una clara disparidad en el rendimiento: mientras que los modelos de última generación manejan bien las tareas básicas, muchos sistemas contemporáneos aún luchan con el seguimiento fundamental de instrucciones. Más críticamente, casi todos los modelos se degradan sustancialmente bajo restricciones temporales, exponiendo debilidades persistentes en la conciencia del tiempo y la interacción full-duplex. El Benchmark Game-Time proporciona una base para guiar futuras investigaciones hacia una IA conversacional más consciente del tiempo. Demos y conjuntos de datos están disponibles en nuestro sitio web del proyecto https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising
paradigm for real-time speech interaction. However, their capacity of temporal
dynamics, including the ability to manage timing, tempo and simultaneous
speaking, remains a critical and unevaluated challenge for conversational
fluency. To address this gap, we introduce the Game-Time Benchmark, a framework
to systematically assess these temporal capabilities. Inspired by how humans
learn a language through language activities, Game-Time consists of basic
instruction-following tasks and advanced tasks with temporal constraints, such
as tempo adherence and synchronized responses. Our evaluation of diverse SLM
architectures reveals a clear performance disparity: while state-of-the-art
models handle basic tasks well, many contemporary systems still struggle with
fundamental instruction-following. More critically, nearly all models degrade
substantially under temporal constraints, exposing persistent weaknesses in
time awareness and full-duplex interaction. The Game-Time Benchmark provides a
foundation for guiding future research toward more temporally-aware
conversational AI. Demos and datasets are available on our project website
https://ga642381.github.io/Game-Time.