STITCH: Simultanes Denken und Sprechen mit segmentierter Argumentation für gesprochene Sprachmodelle
STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
July 21, 2025
papers.authors: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
papers.abstract
Sprachmodelle für gesprochene Sprache (Spoken Language Models, SLMs) sind darauf ausgelegt, Spracheingaben zu verarbeiten und gesprochene Antworten zu generieren. Allerdings fehlt aktuellen SLMs die Fähigkeit, einen internen, unausgesprochenen Denkprozess durchzuführen, bevor sie antworten. Im Gegensatz dazu führen Menschen typischerweise komplexe mentale Überlegungen intern durch, was es ihnen ermöglicht, Ideen klar und präzise zu kommunizieren. Daher ist die Integration eines unausgesprochenen Denkprozesses in SLMs äußerst wünschenswert. Während das naive Generieren einer vollständigen Kette von Gedanken (Chain-of-Thought, CoT) vor dem Sprechen ein Denken für SLMs ermöglichen kann, führt dies zu zusätzlicher Latenz bei der Sprachantwort, da die CoT-Argumentation beliebig lang sein kann. Um dieses Problem zu lösen, schlagen wir Stitch vor, eine neuartige Generierungsmethode, die zwischen der Generierung von unausgesprochenen Denkabschnitten und gesprochenen Antwortabschnitten wechselt. Da die Audiobearbeitungszeit eines gesprochenen Antwortabschnitts deutlich länger ist als die Zeit, die für die Generierung der Token in einem gesprochenen Antwortabschnitt benötigt wird, nutzen wir die verbleibende freie Zeit, um die unausgesprochenen Denk-Token zu generieren. Während ein Audioabschnitt dem Benutzer vorgespielt wird, generiert das Modell weiterhin den nächsten unausgesprochenen Denkabschnitt und erreicht so gleichzeitiges Denken und Sprechen. Bemerkenswerterweise erreicht Stitch die Latenz von Baseline-Modellen, die von Natur aus keine unausgesprochene CoT generieren können, während es diese Baseline-Modelle auf mathematischen Argumentationsdatensätzen um 15 % übertrifft; Stitch schneidet auch auf nicht-argumentativen Datensätzen genauso gut ab wie diese Baseline-Modelle. Einige Animationen und Demonstrationen finden sich auf der Projektseite: https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce
spoken responses. However, current SLMs lack the ability to perform an
internal, unspoken thinking process before responding. In contrast, humans
typically engage in complex mental reasoning internally, enabling them to
communicate ideas clearly and concisely. Thus, integrating an unspoken thought
process into SLMs is highly desirable. While naively generating a complete
chain-of-thought (CoT) reasoning before starting to talk can enable thinking
for SLMs, this induces additional latency for the speech response, as the CoT
reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a
novel generation method that alternates between the generation of unspoken
reasoning chunks and spoken response chunks. Since the audio duration of a
chunk of spoken response is much longer than the time to generate the tokens in
a chunk of spoken response, we use the remaining free time to generate the
unspoken reasoning tokens. When a chunk of audio is played to the user, the
model continues to generate the next unspoken reasoning chunk, achieving
simultaneous thinking and talking. Remarkably, Stitch matches the latency of
baselines that cannot generate unspoken CoT by design while outperforming those
baselines by 15% on math reasoning datasets; Stitch also performs equally well
on non-reasoning datasets as those baseline models. Some animations and
demonstrations are on the project page: https://d223302.github.io/STITCH.