ChatPaper.aiChatPaper

Parlato Guidato dalla Mente: Un Approccio a Doppio Cervello per il Ragionamento in Tempo Reale nei Modelli Linguistici Parlati

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

October 10, 2025
Autori: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

Abstract

I modelli di linguaggio parlato in tempo reale (SLM) faticano a sfruttare il ragionamento a catena di pensiero (CoT) a causa della latenza proibitiva generata dalla produzione sequenziale dell'intero processo di pensiero. Abilitare gli SLM a pensare mentre parlano, in modo simile agli esseri umani, sta attirando un'attenzione crescente. Presentiamo, per la prima volta, Mind-Paced Speaking (MPS), un framework ispirato al cervello che consente un ragionamento ad alta fedeltà in tempo reale. Similmente a come gli esseri umani utilizzano distinte regioni cerebrali per pensare e rispondere, proponiamo un innovativo approccio a doppio cervello, impiegando un "Cervello di Formulazione" per il ragionamento di alto livello per guidare e regolare un separato "Cervello di Articolazione" per la generazione fluida del parlato. Questa divisione del lavoro elimina il cambio di modalità, preservando l'integrità del processo di ragionamento. Gli esperimenti dimostrano che MPS supera significativamente i metodi esistenti di pensare-mentre-parlare e raggiunge prestazioni di ragionamento comparabili a modelli che pre-calcolano l'intero CoT prima di parlare, riducendo drasticamente la latenza. In una configurazione a latenza zero, il metodo proposto raggiunge un'accuratezza del 92,8% nel compito di ragionamento matematico Spoken-MQA e ottiene un punteggio di 82,5 nel compito di conversazione parlata URO-Bench. Il nostro lavoro colma efficacemente il divario tra ragionamento di alta qualità e interazione in tempo reale.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought (CoT) reasoning due to the prohibitive latency of generating the entire thought process sequentially. Enabling SLMs to think while speaking, similar to humans, is attracting increasing attention. We present, for the first time, Mind-Paced Speaking (MPS), a brain-inspired framework that enables high-fidelity, real-time reasoning. Similar to how humans utilize distinct brain regions for thinking and responding, we propose a novel dual-brain approach, employing a "Formulation Brain" for high-level reasoning to pace and guide a separate "Articulation Brain" for fluent speech generation. This division of labor eliminates mode-switching, preserving the integrity of the reasoning process. Experiments show that MPS significantly outperforms existing think-while-speaking methods and achieves reasoning performance comparable to models that pre-compute the full CoT before speaking, while drastically reducing latency. Under a zero-latency configuration, the proposed method achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and attains a score of 82.5 on the speech conversation task URO-Bench. Our work effectively bridges the gap between high-quality reasoning and real-time interaction.
PDF42October 13, 2025