Parole Rythmée par l'Esprit : Une Approche à Double Cerveau pour le Raisonnement en Temps Réel dans les Modèles de Langage Parlé
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
October 10, 2025
papers.authors: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
papers.abstract
Les modèles de langage parlés en temps réel (SLMs) peinent à exploiter le raisonnement en chaîne de pensée (CoT) en raison de la latence prohibitive liée à la génération séquentielle de l'intégralité du processus de réflexion. Permettre aux SLMs de penser tout en parlant, à l'instar des humains, suscite un intérêt croissant. Nous présentons, pour la première fois, le cadre **Mind-Paced Speaking (MPS)**, inspiré du cerveau, qui permet un raisonnement en temps réel de haute fidélité. Similairement à la manière dont les humains utilisent des régions cérébrales distinctes pour penser et répondre, nous proposons une approche novatrice à double cerveau, employant un « Cerveau de Formulation » pour un raisonnement de haut niveau afin de rythmer et guider un « Cerveau d'Articulation » distinct pour la génération fluide de la parole. Cette division du travail élimine les changements de mode, préservant ainsi l'intégrité du processus de raisonnement. Les expériences montrent que MPS surpasse significativement les méthodes existantes de pensée-parallèle et atteint des performances de raisonnement comparables à celles des modèles qui pré-calculent l'intégralité du CoT avant de parler, tout en réduisant drastiquement la latence. Dans une configuration à latence nulle, la méthode proposée atteint une précision de 92,8 % sur la tâche de raisonnement mathématique Spoken-MQA et obtient un score de 82,5 sur la tâche de conversation parlée URO-Bench. Notre travail comble efficacement le fossé entre un raisonnement de haute qualité et une interaction en temps réel.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought
(CoT) reasoning due to the prohibitive latency of generating the entire thought
process sequentially. Enabling SLMs to think while speaking, similar to humans,
is attracting increasing attention. We present, for the first time, Mind-Paced
Speaking (MPS), a brain-inspired framework that enables high-fidelity,
real-time reasoning. Similar to how humans utilize distinct brain regions for
thinking and responding, we propose a novel dual-brain approach, employing a
"Formulation Brain" for high-level reasoning to pace and guide a separate
"Articulation Brain" for fluent speech generation. This division of labor
eliminates mode-switching, preserving the integrity of the reasoning process.
Experiments show that MPS significantly outperforms existing
think-while-speaking methods and achieves reasoning performance comparable to
models that pre-compute the full CoT before speaking, while drastically
reducing latency. Under a zero-latency configuration, the proposed method
achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and
attains a score of 82.5 on the speech conversation task URO-Bench. Our work
effectively bridges the gap between high-quality reasoning and real-time
interaction.