STITCH: チャンク化推論による音声言語モデルのための同時思考・発話
STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
July 21, 2025
著者: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
要旨
音声言語モデル(SLM)は、音声入力を取り込み、音声応答を生成するように設計されています。しかし、現在のSLMは、応答する前に内部で無言の思考プロセスを実行する能力を欠いています。一方、人間は通常、内部で複雑な精神的推論を行い、明確かつ簡潔にアイデアを伝えることができます。したがって、SLMに無言の思考プロセスを統合することは非常に望ましいです。単純に完全な連鎖的思考(CoT)推論を生成してから話し始めることで、SLMに思考を可能にすることができますが、これにより音声応答に追加の遅延が生じます。なぜなら、CoT推論は任意に長くなる可能性があるからです。この問題を解決するために、我々はStitchという新しい生成方法を提案します。Stitchは、無言の推論チャンクと音声応答チャンクの生成を交互に行います。音声応答のチャンクのオーディオ再生時間は、そのチャンクのトークンを生成する時間よりもはるかに長いため、残りの自由時間を無言の推論トークンの生成に使用します。オーディオチャンクがユーザーに再生されている間、モデルは次の無言の推論チャンクを生成し続け、思考と発話を同時に実現します。注目すべきは、Stitchが無言のCoTを生成できないベースラインと同等の遅延を維持しながら、数学的推論データセットでそれらのベースラインを15%上回ることです。また、Stitchは非推論データセットでもベースラインモデルと同等の性能を発揮します。いくつかのアニメーションとデモンストレーションはプロジェクトページにあります:https://d223302.github.io/STITCH。
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce
spoken responses. However, current SLMs lack the ability to perform an
internal, unspoken thinking process before responding. In contrast, humans
typically engage in complex mental reasoning internally, enabling them to
communicate ideas clearly and concisely. Thus, integrating an unspoken thought
process into SLMs is highly desirable. While naively generating a complete
chain-of-thought (CoT) reasoning before starting to talk can enable thinking
for SLMs, this induces additional latency for the speech response, as the CoT
reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a
novel generation method that alternates between the generation of unspoken
reasoning chunks and spoken response chunks. Since the audio duration of a
chunk of spoken response is much longer than the time to generate the tokens in
a chunk of spoken response, we use the remaining free time to generate the
unspoken reasoning tokens. When a chunk of audio is played to the user, the
model continues to generate the next unspoken reasoning chunk, achieving
simultaneous thinking and talking. Remarkably, Stitch matches the latency of
baselines that cannot generate unspoken CoT by design while outperforming those
baselines by 15% on math reasoning datasets; Stitch also performs equally well
on non-reasoning datasets as those baseline models. Some animations and
demonstrations are on the project page: https://d223302.github.io/STITCH.