ChatPaper.aiChatPaper

STITCH: 청크 기반 추론을 통한 동시 사고 및 발화를 지원하는 음성 언어 모델

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

July 21, 2025
저자: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

초록

음성 언어 모델(SLMs)은 음성 입력을 받아 음성 응답을 생성하도록 설계되었습니다. 그러나 현재의 SLM은 응답하기 전에 내부적으로 말하지 않는 사고 과정을 수행할 수 있는 능력이 부족합니다. 이와 대조적으로, 인간은 일반적으로 복잡한 정신적 추론을 내부적으로 수행함으로써 아이디어를 명확하고 간결하게 전달할 수 있습니다. 따라서 SLM에 말하지 않는 사고 과정을 통합하는 것은 매우 바람직합니다. 말을 시작하기 전에 완전한 사고의 연쇄(CoT) 추론을 순진하게 생성하는 것은 SLM이 사고할 수 있게 할 수 있지만, 이는 CoT 추론이 임의로 길어질 수 있기 때문에 음성 응답에 추가적인 지연을 유발합니다. 이 문제를 해결하기 위해, 우리는 말하지 않는 추론 청크와 음성 응답 청크를 번갈아 생성하는 새로운 생성 방법인 Stitch를 제안합니다. 음성 응답 청크의 오디오 지속 시간이 음성 응답 청크의 토큰을 생성하는 시간보다 훨씬 길기 때문에, 남은 자유 시간을 말하지 않는 추론 토큰을 생성하는 데 사용합니다. 오디오 청크가 사용자에게 재생되는 동안, 모델은 다음 말하지 않는 추론 청크를 계속 생성하여 동시에 사고하고 말하는 것을 달성합니다. 놀랍게도, Stitch는 설계상 말하지 않는 CoT를 생성할 수 없는 기준선의 지연 시간과 일치하면서 수학 추론 데이터셋에서 기준선보다 15% 더 우수한 성능을 보입니다; Stitch는 또한 비추론 데이터셋에서 기준선 모델과 동등하게 잘 수행합니다. 일부 애니메이션과 데모는 프로젝트 페이지(https://d223302.github.io/STITCH)에서 확인할 수 있습니다.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
PDF231July 22, 2025