Game-Time : Évaluation des dynamiques temporelles dans les modèles de langage parlé
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
September 30, 2025
papers.authors: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI
papers.abstract
Les modèles de langage conversationnel parlés (SLM) émergent comme un paradigme prometteur pour l'interaction vocale en temps réel. Cependant, leur capacité à gérer les dynamiques temporelles, incluant la gestion du timing, du tempo et de la parole simultanée, reste un défi critique et non évalué pour la fluidité conversationnelle. Pour combler cette lacune, nous introduisons le benchmark Game-Time, un cadre permettant d'évaluer systématiquement ces capacités temporelles. Inspiré par la manière dont les humains apprennent une langue à travers des activités linguistiques, Game-Time comprend des tâches de base de suivi d'instructions et des tâches avancées avec des contraintes temporelles, telles que l'adhésion au tempo et les réponses synchronisées. Notre évaluation de diverses architectures de SLM révèle une disparité de performance claire : bien que les modèles de pointe gèrent bien les tâches de base, de nombreux systèmes contemporains peinent encore avec le suivi d'instructions fondamental. Plus critique encore, presque tous les modèles voient leurs performances se dégrader considérablement sous contraintes temporelles, exposant des faiblesses persistantes dans la conscience du temps et l'interaction full-duplex. Le benchmark Game-Time fournit une base pour orienter les recherches futures vers une IA conversationnelle plus consciente du temps. Les démonstrations et les jeux de données sont disponibles sur notre site web de projet https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising
paradigm for real-time speech interaction. However, their capacity of temporal
dynamics, including the ability to manage timing, tempo and simultaneous
speaking, remains a critical and unevaluated challenge for conversational
fluency. To address this gap, we introduce the Game-Time Benchmark, a framework
to systematically assess these temporal capabilities. Inspired by how humans
learn a language through language activities, Game-Time consists of basic
instruction-following tasks and advanced tasks with temporal constraints, such
as tempo adherence and synchronized responses. Our evaluation of diverse SLM
architectures reveals a clear performance disparity: while state-of-the-art
models handle basic tasks well, many contemporary systems still struggle with
fundamental instruction-following. More critically, nearly all models degrade
substantially under temporal constraints, exposing persistent weaknesses in
time awareness and full-duplex interaction. The Game-Time Benchmark provides a
foundation for guiding future research toward more temporally-aware
conversational AI. Demos and datasets are available on our project website
https://ga642381.github.io/Game-Time.