Game-Time: Valutazione delle Dinamiche Temporali nei Modelli di Linguaggio Parlato
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
September 30, 2025
Autori: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI
Abstract
I modelli di linguaggio parlato conversazionale (SLM) stanno emergendo come un paradigma promettente per l'interazione vocale in tempo reale. Tuttavia, la loro capacità di gestire le dinamiche temporali, inclusa la gestione del tempismo, del ritmo e della conversazione simultanea, rimane una sfida critica e non ancora valutata per la fluidità conversazionale. Per colmare questa lacuna, introduciamo il Game-Time Benchmark, un framework per valutare sistematicamente queste capacità temporali. Ispirato da come gli esseri umani apprendono una lingua attraverso attività linguistiche, Game-Time consiste in compiti di base di esecuzione di istruzioni e compiti avanzati con vincoli temporali, come l'aderenza al ritmo e le risposte sincronizzate. La nostra valutazione di diverse architetture SLM rivela una chiara disparità di prestazioni: mentre i modelli all'avanguardia gestiscono bene i compiti di base, molti sistemi contemporanei faticano ancora con l'esecuzione fondamentale delle istruzioni. Ancora più critico, quasi tutti i modelli si degradano sostanzialmente sotto vincoli temporali, evidenziando debolezze persistenti nella consapevolezza del tempo e nell'interazione full-duplex. Il Game-Time Benchmark fornisce una base per guidare la ricerca futura verso un'IA conversazionale più consapevole del tempo. Demo e dataset sono disponibili sul nostro sito web del progetto https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising
paradigm for real-time speech interaction. However, their capacity of temporal
dynamics, including the ability to manage timing, tempo and simultaneous
speaking, remains a critical and unevaluated challenge for conversational
fluency. To address this gap, we introduce the Game-Time Benchmark, a framework
to systematically assess these temporal capabilities. Inspired by how humans
learn a language through language activities, Game-Time consists of basic
instruction-following tasks and advanced tasks with temporal constraints, such
as tempo adherence and synchronized responses. Our evaluation of diverse SLM
architectures reveals a clear performance disparity: while state-of-the-art
models handle basic tasks well, many contemporary systems still struggle with
fundamental instruction-following. More critically, nearly all models degrade
substantially under temporal constraints, exposing persistent weaknesses in
time awareness and full-duplex interaction. The Game-Time Benchmark provides a
foundation for guiding future research toward more temporally-aware
conversational AI. Demos and datasets are available on our project website
https://ga642381.github.io/Game-Time.