SHANKS: Audição e Pensamento Simultâneos para Modelos de Linguagem Falada

Resumo

Os atuais modelos de linguagem de grande escala (LLMs) e modelos de linguagem falada (SLMs) começam a pensar e agir somente após o usuário terminar sua vez. Isso impede que o modelo interaja durante a fala do usuário e pode resultar em alta latência de resposta enquanto aguarda para pensar. Consequentemente, pensar após receber a entrada completa não é adequado para interações de fala para fala, onde a troca em tempo real e de baixa latência é importante. Abordamos isso observando que os humanos naturalmente "pensam enquanto ouvem". Neste artigo, propomos o SHANKS, uma estrutura de inferência geral que permite que SLMs gerem raciocínios não falados em cadeia de pensamento enquanto ouvem a entrada do usuário. O SHANKS transmite a fala de entrada em blocos de duração fixa e, assim que um bloco é recebido, gera raciocínios não falados com base em toda a fala e raciocínio anteriores, enquanto o usuário continua falando. O SHANKS usa esse raciocínio não falado para decidir se deve interromper o usuário e fazer chamadas de ferramentas para concluir a tarefa. Demonstramos que o SHANKS melhora a interação em tempo real entre o usuário e o SLM em dois cenários: (1) quando o usuário está apresentando uma solução passo a passo para um problema matemático, o SHANKS pode ouvir, raciocinar e interromper quando o usuário comete um erro, alcançando uma precisão de interrupção 37,1% maior do que uma linha de base que interrompe sem pensar; e (2) em um diálogo aumentado por ferramentas, o SHANKS pode concluir 56,9% das chamadas de ferramentas antes que o usuário termine sua vez. No geral, o SHANKS avança em direção a modelos que continuam pensando ao longo da conversa, não apenas após o término de uma vez. Ilustrações animadas do SHANKS podem ser encontradas em https://d223302.github.io/SHANKS/.

English

Current large language models (LLMs) and spoken language models (SLMs) begin thinking and taking actions only after the user has finished their turn. This prevents the model from interacting during the user's turn and can lead to high response latency while it waits to think. Consequently, thinking after receiving the full input is not suitable for speech-to-speech interaction, where real-time, low-latency exchange is important. We address this by noting that humans naturally "think while listening." In this paper, we propose SHANKS, a general inference framework that enables SLMs to generate unspoken chain-of-thought reasoning while listening to the user input. SHANKS streams the input speech in fixed-duration chunks and, as soon as a chunk is received, generates unspoken reasoning based on all previous speech and reasoning, while the user continues speaking. SHANKS uses this unspoken reasoning to decide whether to interrupt the user and to make tool calls to complete the task. We demonstrate that SHANKS enhances real-time user-SLM interaction in two scenarios: (1) when the user is presenting a step-by-step solution to a math problem, SHANKS can listen, reason, and interrupt when the user makes a mistake, achieving 37.1% higher interruption accuracy than a baseline that interrupts without thinking; and (2) in a tool-augmented dialogue, SHANKS can complete 56.9% of the tool calls before the user finishes their turn. Overall, SHANKS moves toward models that keep thinking throughout the conversation, not only after a turn ends. Animated illustrations of Shanks can be found at https://d223302.github.io/SHANKS/

SHANKS: Audição e Pensamento Simultâneos para Modelos de Linguagem Falada

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Resumo

Support