ChatPaper.aiChatPaper

STITCH: Gelijktijdig Denken en Praten met Gegroepeerd Redeneren voor Gesproken Taalmodellen

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

July 21, 2025
Auteurs: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Samenvatting

Gesproken Taalmodellen (SLMs) zijn ontworpen om spraakinvoer te verwerken en gesproken reacties te genereren. Huidige SLMs hebben echter niet het vermogen om een intern, onuitgesproken denkproces uit te voeren voordat ze reageren. In tegenstelling tot mensen, die doorgaans complexe mentale redeneringen intern uitvoeren, waardoor ze ideeën duidelijk en beknopt kunnen communiceren. Het integreren van een onuitgesproken denkproces in SLMs is daarom zeer wenselijk. Hoewel het naïef genereren van een volledige keten-van-gedachten (CoT) redenering voordat men begint te praten, denken voor SLMs mogelijk maakt, introduceert dit extra latentie voor de spraakreactie, aangezien de CoT-redenering willekeurig lang kan zijn. Om dit probleem op te lossen, stellen we Stitch voor, een nieuwe generatiemethode die afwisselt tussen het genereren van onuitgesproken redeneringssegmenten en gesproken reactiesegmenten. Omdat de audioduur van een gesproken reactiesegment veel langer is dan de tijd die nodig is om de tokens in een gesproken reactiesegment te genereren, gebruiken we de resterende vrije tijd om de onuitgesproken redeneringstokens te genereren. Wanneer een audiosegment aan de gebruiker wordt afgespeeld, blijft het model het volgende onuitgesproken redeneringssegment genereren, waardoor gelijktijdig denken en praten wordt bereikt. Opmerkelijk is dat Stitch de latentie van baseline-modellen die geen onuitgesproken CoT kunnen genereren door ontwerp evenaart, terwijl het deze baseline-modellen met 15% overtreft op wiskundige redeneerdatasets; Stitch presteert ook even goed op niet-redeneerdatasets als die baseline-modellen. Enkele animaties en demonstraties zijn te vinden op de projectpagina: https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
PDF301July 22, 2025