Mind-Paced Speaking: Een Dual-Brain Benadering voor Real-Time Redeneren in Gesproken Taalmodellen
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
October 10, 2025
Auteurs: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Samenvatting
Real-time gesproken taalmodellen (SLMs) hebben moeite om Chain-of-Thought (CoT)-redenering te benutten vanwege de onaanvaardbare latentie die ontstaat bij het sequentieel genereren van het volledige denkproces. Het mogelijk maken voor SLMs om te denken terwijl ze spreken, vergelijkbaar met mensen, trekt steeds meer aandacht. Wij presenteren voor het eerst Mind-Paced Speaking (MPS), een brein-geïnspireerd raamwerk dat hoogwaardige, real-time redenering mogelijk maakt. Net zoals mensen verschillende hersengebieden gebruiken voor denken en reageren, stellen wij een nieuwe dual-brain aanpak voor, waarbij een "Formulering Brein" wordt ingezet voor hoogwaardige redenering om een apart "Articulatie Brein" te sturen voor vloeiende spraakgeneratie. Deze taakverdeling elimineert modus-switching en behoudt de integriteit van het redeneerproces. Experimenten tonen aan dat MPS aanzienlijk beter presteert dan bestaande denk-terwijl-je-spreekt methoden en redeneerprestaties bereikt die vergelijkbaar zijn met modellen die de volledige CoT vooraf berekenen voordat ze spreken, terwijl de latentie drastisch wordt verminderd. Onder een zero-latentie configuratie behaalt de voorgestelde methode een nauwkeurigheid van 92,8% op de wiskundige redeneertaak Spoken-MQA en een score van 82,5 op de spraakconversatietaak URO-Bench. Ons werk overbrugt effectief de kloof tussen hoogwaardige redenering en real-time interactie.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought
(CoT) reasoning due to the prohibitive latency of generating the entire thought
process sequentially. Enabling SLMs to think while speaking, similar to humans,
is attracting increasing attention. We present, for the first time, Mind-Paced
Speaking (MPS), a brain-inspired framework that enables high-fidelity,
real-time reasoning. Similar to how humans utilize distinct brain regions for
thinking and responding, we propose a novel dual-brain approach, employing a
"Formulation Brain" for high-level reasoning to pace and guide a separate
"Articulation Brain" for fluent speech generation. This division of labor
eliminates mode-switching, preserving the integrity of the reasoning process.
Experiments show that MPS significantly outperforms existing
think-while-speaking methods and achieves reasoning performance comparable to
models that pre-compute the full CoT before speaking, while drastically
reducing latency. Under a zero-latency configuration, the proposed method
achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and
attains a score of 82.5 on the speech conversation task URO-Bench. Our work
effectively bridges the gap between high-quality reasoning and real-time
interaction.