ChatPaper.aiChatPaper

STITCH : Pensée et Parole Simultanées avec Raisonnement par Blocs pour les Modèles de Langage Parlé

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

July 21, 2025
papers.authors: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

papers.abstract

Les modèles de langage parlés (SLMs) sont conçus pour prendre des entrées vocales et produire des réponses parlées. Cependant, les SLMs actuels ne possèdent pas la capacité d'effectuer un processus de réflexion interne et non verbalisé avant de répondre. En revanche, les humains s'engagent généralement dans un raisonnement mental complexe en interne, ce qui leur permet de communiquer des idées de manière claire et concise. Ainsi, l'intégration d'un processus de pensée non verbalisé dans les SLMs est hautement souhaitable. Bien que la génération naïve d'une chaîne de raisonnement (CoT) complète avant de commencer à parler puisse permettre la réflexion pour les SLMs, cela induit une latence supplémentaire pour la réponse vocale, car la CoT peut être arbitrairement longue. Pour résoudre ce problème, nous proposons Stitch, une nouvelle méthode de génération qui alterne entre la génération de segments de raisonnement non verbalisés et de segments de réponse parlée. Étant donné que la durée audio d'un segment de réponse parlée est beaucoup plus longue que le temps nécessaire pour générer les tokens dans un segment de réponse parlée, nous utilisons le temps libre restant pour générer les tokens de raisonnement non verbalisés. Lorsqu'un segment audio est joué pour l'utilisateur, le modèle continue à générer le prochain segment de raisonnement non verbalisé, réalisant ainsi une réflexion et une parole simultanées. Remarquablement, Stitch correspond à la latence des modèles de référence qui ne peuvent pas générer de CoT non verbalisé par conception, tout en surpassant ces modèles de référence de 15 % sur les ensembles de données de raisonnement mathématique ; Stitch performe également aussi bien que ces modèles de référence sur les ensembles de données non liés au raisonnement. Des animations et des démonstrations sont disponibles sur la page du projet : https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
PDF231July 22, 2025