SHANKS: Audición y Pensamiento Simultáneo para Modelos de Lenguaje Hablado

Resumen

Los modelos de lenguaje actuales (LLMs) y los modelos de lenguaje hablado (SLMs) comienzan a pensar y actuar solo después de que el usuario ha terminado su turno. Esto impide que el modelo interactúe durante el turno del usuario y puede generar una alta latencia en las respuestas mientras espera para pensar. En consecuencia, pensar después de recibir la entrada completa no es adecuado para la interacción de voz a voz, donde el intercambio en tiempo real y de baja latencia es crucial. Abordamos este problema observando que los humanos naturalmente "piensan mientras escuchan". En este artículo, proponemos SHANKS, un marco de inferencia general que permite a los SLMs generar razonamientos no hablados en cadena mientras escuchan la entrada del usuario. SHANKS transmite el discurso de entrada en fragmentos de duración fija y, tan pronto como se recibe un fragmento, genera razonamientos no hablados basados en todo el discurso y razonamiento previo, mientras el usuario continúa hablando. SHANKS utiliza este razonamiento no hablado para decidir si interrumpir al usuario y realizar llamadas a herramientas para completar la tarea. Demostramos que SHANKS mejora la interacción en tiempo real entre el usuario y el SLM en dos escenarios: (1) cuando el usuario presenta una solución paso a paso a un problema matemático, SHANKS puede escuchar, razonar e interrumpir cuando el usuario comete un error, logrando un 37.1% más de precisión en las interrupciones que un modelo base que interrumpe sin pensar; y (2) en un diálogo aumentado con herramientas, SHANKS puede completar el 56.9% de las llamadas a herramientas antes de que el usuario termine su turno. En general, SHANKS avanza hacia modelos que continúan pensando durante toda la conversación, no solo después de que termina un turno. Las ilustraciones animadas de SHANKS se pueden encontrar en https://d223302.github.io/SHANKS/.

English

Current large language models (LLMs) and spoken language models (SLMs) begin thinking and taking actions only after the user has finished their turn. This prevents the model from interacting during the user's turn and can lead to high response latency while it waits to think. Consequently, thinking after receiving the full input is not suitable for speech-to-speech interaction, where real-time, low-latency exchange is important. We address this by noting that humans naturally "think while listening." In this paper, we propose SHANKS, a general inference framework that enables SLMs to generate unspoken chain-of-thought reasoning while listening to the user input. SHANKS streams the input speech in fixed-duration chunks and, as soon as a chunk is received, generates unspoken reasoning based on all previous speech and reasoning, while the user continues speaking. SHANKS uses this unspoken reasoning to decide whether to interrupt the user and to make tool calls to complete the task. We demonstrate that SHANKS enhances real-time user-SLM interaction in two scenarios: (1) when the user is presenting a step-by-step solution to a math problem, SHANKS can listen, reason, and interrupt when the user makes a mistake, achieving 37.1% higher interruption accuracy than a baseline that interrupts without thinking; and (2) in a tool-augmented dialogue, SHANKS can complete 56.9% of the tool calls before the user finishes their turn. Overall, SHANKS moves toward models that keep thinking throughout the conversation, not only after a turn ends. Animated illustrations of Shanks can be found at https://d223302.github.io/SHANKS/

SHANKS: Audición y Pensamiento Simultáneo para Modelos de Lenguaje Hablado

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Resumen

Support