Habla Guiada por la Mente: Un Enfoque de Doble Cerebro para el Razonamiento en Tiempo Real en Modelos de Lenguaje Hablado
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
October 10, 2025
Autores: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Resumen
Los modelos de lenguaje hablado en tiempo real (SLMs, por sus siglas en inglés) enfrentan dificultades para aprovechar el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) debido a la latencia prohibitiva de generar todo el proceso de pensamiento de manera secuencial. Habilitar a los SLMs para que piensen mientras hablan, de manera similar a los humanos, está atrayendo una atención creciente. Presentamos, por primera vez, Habla con Ritmo Mental (MPS, por sus siglas en inglés), un marco inspirado en el cerebro que permite un razonamiento de alta fidelidad en tiempo real. Similar a cómo los humanos utilizan regiones cerebrales distintas para pensar y responder, proponemos un enfoque de doble cerebro, empleando un "Cerebro de Formulación" para el razonamiento de alto nivel que guía y establece el ritmo de un "Cerebro de Articulación" separado para la generación fluida del habla. Esta división del trabajo elimina el cambio de modo, preservando la integridad del proceso de razonamiento. Los experimentos muestran que MPS supera significativamente a los métodos existentes de pensar-mientras-se-habla y logra un rendimiento de razonamiento comparable a los modelos que precalculan el CoT completo antes de hablar, mientras reduce drásticamente la latencia. Bajo una configuración de latencia cero, el método propuesto alcanza una precisión del 92.8% en la tarea de razonamiento matemático Spoken-MQA y obtiene una puntuación de 82.5 en la tarea de conversación hablada URO-Bench. Nuestro trabajo efectivamente cierra la brecha entre el razonamiento de alta calidad y la interacción en tiempo real.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought
(CoT) reasoning due to the prohibitive latency of generating the entire thought
process sequentially. Enabling SLMs to think while speaking, similar to humans,
is attracting increasing attention. We present, for the first time, Mind-Paced
Speaking (MPS), a brain-inspired framework that enables high-fidelity,
real-time reasoning. Similar to how humans utilize distinct brain regions for
thinking and responding, we propose a novel dual-brain approach, employing a
"Formulation Brain" for high-level reasoning to pace and guide a separate
"Articulation Brain" for fluent speech generation. This division of labor
eliminates mode-switching, preserving the integrity of the reasoning process.
Experiments show that MPS significantly outperforms existing
think-while-speaking methods and achieves reasoning performance comparable to
models that pre-compute the full CoT before speaking, while drastically
reducing latency. Under a zero-latency configuration, the proposed method
achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and
attains a score of 82.5 on the speech conversation task URO-Bench. Our work
effectively bridges the gap between high-quality reasoning and real-time
interaction.