ChatPaper.aiChatPaper

마음 속도 조절 발화: 음성 언어 모델을 위한 실시간 추론의 이중 두뇌 접근법

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

October 10, 2025
저자: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

초록

실시간 음성 언어 모델(SLMs)은 전체 사고 과정을 순차적으로 생성해야 하는 과도한 지연 시간으로 인해 사고의 연쇄(Chain-of-Thought, CoT) 추론을 활용하는 데 어려움을 겪고 있습니다. 인간처럼 말을 하면서 동시에 사고할 수 있는 SLMs의 가능성은 점점 더 주목받고 있습니다. 우리는 이번 연구에서 처음으로, 인간의 뇌를 모방한 고품질 실시간 추론을 가능하게 하는 Mind-Paced Speaking(MPS) 프레임워크를 제안합니다. 인간이 사고와 반응을 위해 서로 다른 뇌 영역을 활용하는 방식과 유사하게, 우리는 고수준의 추론을 담당하는 "Formulation Brain"과 유창한 음성 생성을 담당하는 "Articulation Brain"이라는 이중 뇌 접근법을 제안합니다. 이러한 역할 분담은 모드 전환을 제거함으로써 추론 과정의 무결성을 보존합니다. 실험 결과, MPS는 기존의 말하면서 사고하는 방법들을 크게 능가하며, 말하기 전에 전체 CoT를 미리 계산하는 모델들과 비슷한 수준의 추론 성능을 달성하면서도 지연 시간을 크게 줄였습니다. 제로 지연 시간 설정에서, 제안된 방법은 수학적 추론 과제인 Spoken-MQA에서 92.8%의 정확도를 달성했으며, 음성 대화 과제인 URO-Bench에서는 82.5점을 기록했습니다. 우리의 연구는 고품질 추론과 실시간 상호작용 간의 간극을 효과적으로 메웠습니다.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought (CoT) reasoning due to the prohibitive latency of generating the entire thought process sequentially. Enabling SLMs to think while speaking, similar to humans, is attracting increasing attention. We present, for the first time, Mind-Paced Speaking (MPS), a brain-inspired framework that enables high-fidelity, real-time reasoning. Similar to how humans utilize distinct brain regions for thinking and responding, we propose a novel dual-brain approach, employing a "Formulation Brain" for high-level reasoning to pace and guide a separate "Articulation Brain" for fluent speech generation. This division of labor eliminates mode-switching, preserving the integrity of the reasoning process. Experiments show that MPS significantly outperforms existing think-while-speaking methods and achieves reasoning performance comparable to models that pre-compute the full CoT before speaking, while drastically reducing latency. Under a zero-latency configuration, the proposed method achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and attains a score of 82.5 on the speech conversation task URO-Bench. Our work effectively bridges the gap between high-quality reasoning and real-time interaction.
PDF42October 13, 2025