Fala Controlada pela Mente: Uma Abordagem de Duplo Cérebro para Raciocínio em Tempo Real em Modelos de Linguagem Falada
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models
October 10, 2025
Autores: Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Resumo
Modelos de Linguagem Falada em Tempo Real (SLMs) enfrentam dificuldades para aproveitar o raciocínio em Cadeia de Pensamento (CoT) devido à latência proibitiva de gerar todo o processo de pensamento sequencialmente. Permitir que os SLMs pensem enquanto falam, de forma semelhante aos humanos, está atraindo atenção crescente. Apresentamos, pela primeira vez, o "Mind-Paced Speaking" (MPS), um framework inspirado no cérebro que permite raciocínio de alta fidelidade em tempo real. Assim como os humanos utilizam regiões distintas do cérebro para pensar e responder, propomos uma abordagem de duplo cérebro, empregando um "Cérebro de Formulação" para raciocínio de alto nível, que orienta e define o ritmo de um "Cérebro de Articulação" separado, responsável pela geração de fala fluente. Essa divisão de trabalho elimina a alternância de modos, preservando a integridade do processo de raciocínio. Experimentos mostram que o MPS supera significativamente os métodos existentes de pensar-enquanto-fala e alcança desempenho de raciocínio comparável a modelos que pré-computam o CoT completo antes de falar, enquanto reduz drasticamente a latência. Em uma configuração de latência zero, o método proposto atinge uma precisão de 92,8% na tarefa de raciocínio matemático Spoken-MQA e obtém uma pontuação de 82,5 na tarefa de conversação falada URO-Bench. Nosso trabalho efetivamente preenche a lacuna entre raciocínio de alta qualidade e interação em tempo real.
English
Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought
(CoT) reasoning due to the prohibitive latency of generating the entire thought
process sequentially. Enabling SLMs to think while speaking, similar to humans,
is attracting increasing attention. We present, for the first time, Mind-Paced
Speaking (MPS), a brain-inspired framework that enables high-fidelity,
real-time reasoning. Similar to how humans utilize distinct brain regions for
thinking and responding, we propose a novel dual-brain approach, employing a
"Formulation Brain" for high-level reasoning to pace and guide a separate
"Articulation Brain" for fluent speech generation. This division of labor
eliminates mode-switching, preserving the integrity of the reasoning process.
Experiments show that MPS significantly outperforms existing
think-while-speaking methods and achieves reasoning performance comparable to
models that pre-compute the full CoT before speaking, while drastically
reducing latency. Under a zero-latency configuration, the proposed method
achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and
attains a score of 82.5 on the speech conversation task URO-Bench. Our work
effectively bridges the gap between high-quality reasoning and real-time
interaction.