Game-Time: Avaliando Dinâmicas Temporais em Modelos de Linguagem Falada
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
September 30, 2025
Autores: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI
Resumo
Modelos de Linguagem de Fala Conversacional (SLMs, na sigla em inglês) estão surgindo como um paradigma promissor para interações de fala em tempo real. No entanto, sua capacidade de lidar com dinâmicas temporais, incluindo a habilidade de gerenciar tempo, ritmo e fala simultânea, permanece um desafio crítico e não avaliado para a fluência conversacional. Para abordar essa lacuna, introduzimos o Game-Time Benchmark, um framework para avaliar sistematicamente essas capacidades temporais. Inspirado em como os humanos aprendem uma língua por meio de atividades linguísticas, o Game-Time consiste em tarefas básicas de seguir instruções e tarefas avançadas com restrições temporais, como aderência ao ritmo e respostas sincronizadas. Nossa avaliação de diversas arquiteturas de SLMs revela uma clara disparidade de desempenho: enquanto modelos state-of-the-art lidam bem com tarefas básicas, muitos sistemas contemporâneos ainda lutam com o seguimento fundamental de instruções. Mais criticamente, quase todos os modelos degradam substancialmente sob restrições temporais, expondo fraquezas persistentes em consciência temporal e interação full-duplex. O Game-Time Benchmark fornece uma base para orientar pesquisas futuras em direção a uma IA conversacional mais consciente do tempo. Demonstrações e conjuntos de dados estão disponíveis em nosso site do projeto: https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising
paradigm for real-time speech interaction. However, their capacity of temporal
dynamics, including the ability to manage timing, tempo and simultaneous
speaking, remains a critical and unevaluated challenge for conversational
fluency. To address this gap, we introduce the Game-Time Benchmark, a framework
to systematically assess these temporal capabilities. Inspired by how humans
learn a language through language activities, Game-Time consists of basic
instruction-following tasks and advanced tasks with temporal constraints, such
as tempo adherence and synchronized responses. Our evaluation of diverse SLM
architectures reveals a clear performance disparity: while state-of-the-art
models handle basic tasks well, many contemporary systems still struggle with
fundamental instruction-following. More critically, nearly all models degrade
substantially under temporal constraints, exposing persistent weaknesses in
time awareness and full-duplex interaction. The Game-Time Benchmark provides a
foundation for guiding future research toward more temporally-aware
conversational AI. Demos and datasets are available on our project website
https://ga642381.github.io/Game-Time.