STITCH: Gelijktijdig Denken en Praten met Gegroepeerd Redeneren voor Gesproken Taalmodellen
STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
July 21, 2025
Auteurs: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
Samenvatting
Gesproken Taalmodellen (SLMs) zijn ontworpen om spraakinvoer te verwerken en gesproken reacties te genereren. Huidige SLMs hebben echter niet het vermogen om een intern, onuitgesproken denkproces uit te voeren voordat ze reageren. In tegenstelling tot mensen, die doorgaans complexe mentale redeneringen intern uitvoeren, waardoor ze ideeën duidelijk en beknopt kunnen communiceren. Het integreren van een onuitgesproken denkproces in SLMs is daarom zeer wenselijk. Hoewel het naïef genereren van een volledige keten-van-gedachten (CoT) redenering voordat men begint te praten, denken voor SLMs mogelijk maakt, introduceert dit extra latentie voor de spraakreactie, aangezien de CoT-redenering willekeurig lang kan zijn. Om dit probleem op te lossen, stellen we Stitch voor, een nieuwe generatiemethode die afwisselt tussen het genereren van onuitgesproken redeneringssegmenten en gesproken reactiesegmenten. Omdat de audioduur van een gesproken reactiesegment veel langer is dan de tijd die nodig is om de tokens in een gesproken reactiesegment te genereren, gebruiken we de resterende vrije tijd om de onuitgesproken redeneringstokens te genereren. Wanneer een audiosegment aan de gebruiker wordt afgespeeld, blijft het model het volgende onuitgesproken redeneringssegment genereren, waardoor gelijktijdig denken en praten wordt bereikt. Opmerkelijk is dat Stitch de latentie van baseline-modellen die geen onuitgesproken CoT kunnen genereren door ontwerp evenaart, terwijl het deze baseline-modellen met 15% overtreft op wiskundige redeneerdatasets; Stitch presteert ook even goed op niet-redeneerdatasets als die baseline-modellen. Enkele animaties en demonstraties zijn te vinden op de projectpagina: https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce
spoken responses. However, current SLMs lack the ability to perform an
internal, unspoken thinking process before responding. In contrast, humans
typically engage in complex mental reasoning internally, enabling them to
communicate ideas clearly and concisely. Thus, integrating an unspoken thought
process into SLMs is highly desirable. While naively generating a complete
chain-of-thought (CoT) reasoning before starting to talk can enable thinking
for SLMs, this induces additional latency for the speech response, as the CoT
reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a
novel generation method that alternates between the generation of unspoken
reasoning chunks and spoken response chunks. Since the audio duration of a
chunk of spoken response is much longer than the time to generate the tokens in
a chunk of spoken response, we use the remaining free time to generate the
unspoken reasoning tokens. When a chunk of audio is played to the user, the
model continues to generate the next unspoken reasoning chunk, achieving
simultaneous thinking and talking. Remarkably, Stitch matches the latency of
baselines that cannot generate unspoken CoT by design while outperforming those
baselines by 15% on math reasoning datasets; Stitch also performs equally well
on non-reasoning datasets as those baseline models. Some animations and
demonstrations are on the project page: https://d223302.github.io/STITCH.