Fala Controlada pela Mente: Uma Abordagem de Duplo Cérebro para Raciocínio em Tempo Real em Modelos de Linguagem Falada

Resumo

Modelos de Linguagem Falada em Tempo Real (SLMs) enfrentam dificuldades para aproveitar o raciocínio em Cadeia de Pensamento (CoT) devido à latência proibitiva de gerar todo o processo de pensamento sequencialmente. Permitir que os SLMs pensem enquanto falam, de forma semelhante aos humanos, está atraindo atenção crescente. Apresentamos, pela primeira vez, o "Mind-Paced Speaking" (MPS), um framework inspirado no cérebro que permite raciocínio de alta fidelidade em tempo real. Assim como os humanos utilizam regiões distintas do cérebro para pensar e responder, propomos uma abordagem de duplo cérebro, empregando um "Cérebro de Formulação" para raciocínio de alto nível, que orienta e define o ritmo de um "Cérebro de Articulação" separado, responsável pela geração de fala fluente. Essa divisão de trabalho elimina a alternância de modos, preservando a integridade do processo de raciocínio. Experimentos mostram que o MPS supera significativamente os métodos existentes de pensar-enquanto-fala e alcança desempenho de raciocínio comparável a modelos que pré-computam o CoT completo antes de falar, enquanto reduz drasticamente a latência. Em uma configuração de latência zero, o método proposto atinge uma precisão de 92,8% na tarefa de raciocínio matemático Spoken-MQA e obtém uma pontuação de 82,5 na tarefa de conversação falada URO-Bench. Nosso trabalho efetivamente preenche a lacuna entre raciocínio de alta qualidade e interação em tempo real.

English

Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought (CoT) reasoning due to the prohibitive latency of generating the entire thought process sequentially. Enabling SLMs to think while speaking, similar to humans, is attracting increasing attention. We present, for the first time, Mind-Paced Speaking (MPS), a brain-inspired framework that enables high-fidelity, real-time reasoning. Similar to how humans utilize distinct brain regions for thinking and responding, we propose a novel dual-brain approach, employing a "Formulation Brain" for high-level reasoning to pace and guide a separate "Articulation Brain" for fluent speech generation. This division of labor eliminates mode-switching, preserving the integrity of the reasoning process. Experiments show that MPS significantly outperforms existing think-while-speaking methods and achieves reasoning performance comparable to models that pre-compute the full CoT before speaking, while drastically reducing latency. Under a zero-latency configuration, the proposed method achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and attains a score of 82.5 on the speech conversation task URO-Bench. Our work effectively bridges the gap between high-quality reasoning and real-time interaction.

Fala Controlada pela Mente: Uma Abordagem de Duplo Cérebro para Raciocínio em Tempo Real em Modelos de Linguagem Falada

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

Resumo

Support