SHANKS : Écoute et Pensée Simultanées pour les Modèles de Langage Parlé

papers.abstract

Les grands modèles de langage (LLMs) et les modèles de langage parlé (SLMs) actuels commencent à réfléchir et à agir uniquement après que l'utilisateur a terminé son tour. Cela empêche le modèle d'interagir pendant le tour de l'utilisateur et peut entraîner une latence de réponse élevée pendant qu'il attend pour réfléchir. Par conséquent, réfléchir après avoir reçu l'intégralité de l'entrée n'est pas adapté à une interaction parole-parole, où un échange en temps réel et à faible latence est important. Nous abordons ce problème en notant que les humains "réfléchissent naturellement en écoutant". Dans cet article, nous proposons SHANKS, un cadre d'inférence général qui permet aux SLMs de générer un raisonnement en chaîne de pensée non prononcé tout en écoutant l'entrée de l'utilisateur. SHANKS diffuse la parole d'entrée en segments de durée fixe et, dès qu'un segment est reçu, génère un raisonnement non prononcé basé sur toutes les paroles et raisonnements précédents, tandis que l'utilisateur continue de parler. SHANKS utilise ce raisonnement non prononcé pour décider s'il doit interrompre l'utilisateur et pour effectuer des appels d'outils afin de terminer la tâche. Nous démontrons que SHANKS améliore l'interaction en temps réel entre l'utilisateur et le SLM dans deux scénarios : (1) lorsque l'utilisateur présente une solution étape par étape à un problème de mathématiques, SHANKS peut écouter, raisonner et interrompre lorsque l'utilisateur fait une erreur, atteignant une précision d'interruption 37,1 % plus élevée qu'une base de référence qui interrompt sans réfléchir ; et (2) dans un dialogue augmenté par des outils, SHANKS peut compléter 56,9 % des appels d'outils avant que l'utilisateur ne termine son tour. Globalement, SHANKS s'oriente vers des modèles qui continuent de réfléchir tout au long de la conversation, et pas seulement après la fin d'un tour. Des illustrations animées de SHANKS peuvent être trouvées à l'adresse https://d223302.github.io/SHANKS/.

English

Current large language models (LLMs) and spoken language models (SLMs) begin thinking and taking actions only after the user has finished their turn. This prevents the model from interacting during the user's turn and can lead to high response latency while it waits to think. Consequently, thinking after receiving the full input is not suitable for speech-to-speech interaction, where real-time, low-latency exchange is important. We address this by noting that humans naturally "think while listening." In this paper, we propose SHANKS, a general inference framework that enables SLMs to generate unspoken chain-of-thought reasoning while listening to the user input. SHANKS streams the input speech in fixed-duration chunks and, as soon as a chunk is received, generates unspoken reasoning based on all previous speech and reasoning, while the user continues speaking. SHANKS uses this unspoken reasoning to decide whether to interrupt the user and to make tool calls to complete the task. We demonstrate that SHANKS enhances real-time user-SLM interaction in two scenarios: (1) when the user is presenting a step-by-step solution to a math problem, SHANKS can listen, reason, and interrupt when the user makes a mistake, achieving 37.1% higher interruption accuracy than a baseline that interrupts without thinking; and (2) in a tool-augmented dialogue, SHANKS can complete 56.9% of the tool calls before the user finishes their turn. Overall, SHANKS moves toward models that keep thinking throughout the conversation, not only after a turn ends. Animated illustrations of Shanks can be found at https://d223302.github.io/SHANKS/

SHANKS : Écoute et Pensée Simultanées pour les Modèles de Langage Parlé

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

papers.abstract

Support