ChatPaper.aiChatPaper

Речь, управляемая разумом: подход с использованием двух мозгов для рассуждений в реальном времени в моделях разговорного языка

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

October 10, 2025
Авторы: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

Аннотация

Модели разговорного языка в реальном времени (Spoken Language Models, SLMs) испытывают трудности с использованием цепочек рассуждений (Chain-of-Thought, CoT) из-за неприемлемой задержки, возникающей при последовательной генерации всего мыслительного процесса. Возможность SLM "думать во время говорения", подобно людям, привлекает всё больше внимания. Впервые мы представляем Mind-Paced Speaking (MPS) — вдохновлённый работой мозга фреймворк, который обеспечивает высококачественное рассуждение в реальном времени. Подобно тому, как люди используют различные области мозга для мышления и ответа, мы предлагаем новый подход с использованием "двух мозгов": "Мозг формулирования" для высокоуровневого рассуждения, который управляет и направляет отдельный "Мозг артикуляции" для генерации плавной речи. Такое разделение задач устраняет необходимость переключения между режимами, сохраняя целостность процесса рассуждения. Эксперименты показывают, что MPS значительно превосходит существующие методы "мышления во время говорения" и достигает качества рассуждений, сопоставимого с моделями, которые предварительно вычисляют полную CoT перед говорением, при этом радикально снижая задержку. В конфигурации с нулевой задержкой предложенный метод достигает точности 92,8% на задаче математического рассуждения Spoken-MQA и получает оценку 82,5 на задаче речевого диалога URO-Bench. Наша работа эффективно устраняет разрыв между высококачественным рассуждением и взаимодействием в реальном времени.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought (CoT) reasoning due to the prohibitive latency of generating the entire thought process sequentially. Enabling SLMs to think while speaking, similar to humans, is attracting increasing attention. We present, for the first time, Mind-Paced Speaking (MPS), a brain-inspired framework that enables high-fidelity, real-time reasoning. Similar to how humans utilize distinct brain regions for thinking and responding, we propose a novel dual-brain approach, employing a "Formulation Brain" for high-level reasoning to pace and guide a separate "Articulation Brain" for fluent speech generation. This division of labor eliminates mode-switching, preserving the integrity of the reasoning process. Experiments show that MPS significantly outperforms existing think-while-speaking methods and achieves reasoning performance comparable to models that pre-compute the full CoT before speaking, while drastically reducing latency. Under a zero-latency configuration, the proposed method achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and attains a score of 82.5 on the speech conversation task URO-Bench. Our work effectively bridges the gap between high-quality reasoning and real-time interaction.
PDF42October 13, 2025