マインドペースト・スピーキング:音声言語モデルにおけるリアルタイム推論のためのデュアルブレインアプローチ
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
October 10, 2025
著者: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
要旨
リアルタイム音声言語モデル(SLM)は、思考プロセス全体を逐次的に生成する際の遅延が大きいため、Chain-of-Thought(CoT)推論を活用することが困難である。人間のように話しながら考える能力をSLMに持たせることは、近年注目を集めている。本研究では初めて、脳にインスパイアされた高精度なリアルタイム推論を可能にする「Mind-Paced Speaking(MPS)」フレームワークを提案する。人間が思考と応答のために異なる脳領域を利用するのと同様に、我々は高レベルの推論を行い、流暢な音声生成を導く「Formulation Brain」と、それとは別に音声生成を担当する「Articulation Brain」を組み合わせた新たなデュアルブレインアプローチを提案する。この分業により、モード切り替えが不要となり、推論プロセスの整合性が保たれる。実験結果から、MPSは既存の「話しながら考える」手法を大幅に上回り、発話前にCoTを事前計算するモデルと同等の推論性能を達成しつつ、遅延を大幅に低減することが示された。ゼロ遅延設定では、数学的推論タスクであるSpoken-MQAで92.8%の精度を達成し、音声会話タスクであるURO-Benchでは82.5のスコアを記録した。本研究は、高品質な推論とリアルタイムインタラクションの間のギャップを効果的に埋めるものである。
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought
(CoT) reasoning due to the prohibitive latency of generating the entire thought
process sequentially. Enabling SLMs to think while speaking, similar to humans,
is attracting increasing attention. We present, for the first time, Mind-Paced
Speaking (MPS), a brain-inspired framework that enables high-fidelity,
real-time reasoning. Similar to how humans utilize distinct brain regions for
thinking and responding, we propose a novel dual-brain approach, employing a
"Formulation Brain" for high-level reasoning to pace and guide a separate
"Articulation Brain" for fluent speech generation. This division of labor
eliminates mode-switching, preserving the integrity of the reasoning process.
Experiments show that MPS significantly outperforms existing
think-while-speaking methods and achieves reasoning performance comparable to
models that pre-compute the full CoT before speaking, while drastically
reducing latency. Under a zero-latency configuration, the proposed method
achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and
attains a score of 82.5 on the speech conversation task URO-Bench. Our work
effectively bridges the gap between high-quality reasoning and real-time
interaction.