ChatPaper.aiChatPaper

Game-Time: Valutazione delle Dinamiche Temporali nei Modelli di Linguaggio Parlato

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

September 30, 2025
Autori: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI

Abstract

I modelli di linguaggio parlato conversazionale (SLM) stanno emergendo come un paradigma promettente per l'interazione vocale in tempo reale. Tuttavia, la loro capacità di gestire le dinamiche temporali, inclusa la gestione del tempismo, del ritmo e della conversazione simultanea, rimane una sfida critica e non ancora valutata per la fluidità conversazionale. Per colmare questa lacuna, introduciamo il Game-Time Benchmark, un framework per valutare sistematicamente queste capacità temporali. Ispirato da come gli esseri umani apprendono una lingua attraverso attività linguistiche, Game-Time consiste in compiti di base di esecuzione di istruzioni e compiti avanzati con vincoli temporali, come l'aderenza al ritmo e le risposte sincronizzate. La nostra valutazione di diverse architetture SLM rivela una chiara disparità di prestazioni: mentre i modelli all'avanguardia gestiscono bene i compiti di base, molti sistemi contemporanei faticano ancora con l'esecuzione fondamentale delle istruzioni. Ancora più critico, quasi tutti i modelli si degradano sostanzialmente sotto vincoli temporali, evidenziando debolezze persistenti nella consapevolezza del tempo e nell'interazione full-duplex. Il Game-Time Benchmark fornisce una base per guidare la ricerca futura verso un'IA conversazionale più consapevole del tempo. Demo e dataset sono disponibili sul nostro sito web del progetto https://ga642381.github.io/Game-Time.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.
PDF262October 6, 2025