Mind-Paced Speaking: Ein Dual-Gehirn-Ansatz zur Echtzeit-Argumentation in gesprochenen Sprachmodellen
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
October 10, 2025
papers.authors: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
papers.abstract
Echtzeit-Sprachmodelle (SLMs) haben Schwierigkeiten, Chain-of-Thought (CoT)-Argumentation zu nutzen, da die Latenzzeit für die sequenzielle Generierung des gesamten Denkprozesses prohibitiv hoch ist. Die Fähigkeit von SLMs, ähnlich wie Menschen während des Sprechens zu denken, gewinnt zunehmend an Aufmerksamkeit. Wir präsentieren erstmals Mind-Paced Speaking (MPS), ein hirninspiriertes Framework, das hochwertige, echtzeitfähige Argumentation ermöglicht. Ähnlich wie Menschen unterschiedliche Hirnregionen für das Denken und Reagieren nutzen, schlagen wir einen neuartigen Dual-Brain-Ansatz vor, der ein „Formulierungsgehirn“ für hochrangige Argumentation einsetzt, um ein separates „Artikulationsgehirn“ für flüssige Sprachgenerierung zu steuern und zu takten. Diese Arbeitsteilung eliminiert Moduswechsel und bewahrt die Integrität des Denkprozesses. Experimente zeigen, dass MPS bestehende Methoden des Denkens während des Sprechens deutlich übertrifft und eine Argumentationsleistung erreicht, die mit Modellen vergleichbar ist, die den vollständigen CoT vor dem Sprechen vorberechnen, bei gleichzeitiger drastischer Reduzierung der Latenz. Unter einer Null-Latenz-Konfiguration erreicht die vorgeschlagene Methode eine Genauigkeit von 92,8 % bei der mathematischen Argumentationsaufgabe Spoken-MQA und eine Punktzahl von 82,5 bei der Sprachkonversationsaufgabe URO-Bench. Unsere Arbeit schließt effektiv die Lücke zwischen hochwertiger Argumentation und Echtzeitinteraktion.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought
(CoT) reasoning due to the prohibitive latency of generating the entire thought
process sequentially. Enabling SLMs to think while speaking, similar to humans,
is attracting increasing attention. We present, for the first time, Mind-Paced
Speaking (MPS), a brain-inspired framework that enables high-fidelity,
real-time reasoning. Similar to how humans utilize distinct brain regions for
thinking and responding, we propose a novel dual-brain approach, employing a
"Formulation Brain" for high-level reasoning to pace and guide a separate
"Articulation Brain" for fluent speech generation. This division of labor
eliminates mode-switching, preserving the integrity of the reasoning process.
Experiments show that MPS significantly outperforms existing
think-while-speaking methods and achieves reasoning performance comparable to
models that pre-compute the full CoT before speaking, while drastically
reducing latency. Under a zero-latency configuration, the proposed method
achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and
attains a score of 82.5 on the speech conversation task URO-Bench. Our work
effectively bridges the gap between high-quality reasoning and real-time
interaction.