ChatPaper.aiChatPaper

Game-Time: Evaluación de la Dinámica Temporal en Modelos de Lenguaje Hablado

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

September 30, 2025
Autores: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI

Resumen

Los Modelos de Lenguaje Conversacional (SLMs, por sus siglas en inglés) están surgiendo como un paradigma prometedor para la interacción hablada en tiempo real. Sin embargo, su capacidad para manejar dinámicas temporales, incluyendo la gestión del tiempo, el tempo y el habla simultánea, sigue siendo un desafío crítico y no evaluado para la fluidez conversacional. Para abordar esta brecha, presentamos el Benchmark Game-Time, un marco para evaluar sistemáticamente estas capacidades temporales. Inspirado en cómo los humanos aprenden un idioma a través de actividades lingüísticas, Game-Time consiste en tareas básicas de seguimiento de instrucciones y tareas avanzadas con restricciones temporales, como la adherencia al tempo y las respuestas sincronizadas. Nuestra evaluación de diversas arquitecturas de SLM revela una clara disparidad en el rendimiento: mientras que los modelos de última generación manejan bien las tareas básicas, muchos sistemas contemporáneos aún luchan con el seguimiento fundamental de instrucciones. Más críticamente, casi todos los modelos se degradan sustancialmente bajo restricciones temporales, exponiendo debilidades persistentes en la conciencia del tiempo y la interacción full-duplex. El Benchmark Game-Time proporciona una base para guiar futuras investigaciones hacia una IA conversacional más consciente del tiempo. Demos y conjuntos de datos están disponibles en nuestro sitio web del proyecto https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.
PDF262October 6, 2025