ChatPaper.aiChatPaper

Game-Time : Évaluation des dynamiques temporelles dans les modèles de langage parlé

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

September 30, 2025
papers.authors: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI

papers.abstract

Les modèles de langage conversationnel parlés (SLM) émergent comme un paradigme prometteur pour l'interaction vocale en temps réel. Cependant, leur capacité à gérer les dynamiques temporelles, incluant la gestion du timing, du tempo et de la parole simultanée, reste un défi critique et non évalué pour la fluidité conversationnelle. Pour combler cette lacune, nous introduisons le benchmark Game-Time, un cadre permettant d'évaluer systématiquement ces capacités temporelles. Inspiré par la manière dont les humains apprennent une langue à travers des activités linguistiques, Game-Time comprend des tâches de base de suivi d'instructions et des tâches avancées avec des contraintes temporelles, telles que l'adhésion au tempo et les réponses synchronisées. Notre évaluation de diverses architectures de SLM révèle une disparité de performance claire : bien que les modèles de pointe gèrent bien les tâches de base, de nombreux systèmes contemporains peinent encore avec le suivi d'instructions fondamental. Plus critique encore, presque tous les modèles voient leurs performances se dégrader considérablement sous contraintes temporelles, exposant des faiblesses persistantes dans la conscience du temps et l'interaction full-duplex. Le benchmark Game-Time fournit une base pour orienter les recherches futures vers une IA conversationnelle plus consciente du temps. Les démonstrations et les jeux de données sont disponibles sur notre site web de projet https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.
PDF262October 6, 2025