STITCH: Одновременное мышление и речь с фрагментированным рассуждением для моделей разговорного языка
STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
July 21, 2025
Авторы: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
Аннотация
Модели разговорного языка (Spoken Language Models, SLMs) предназначены для обработки речевых входных данных и генерации устных ответов. Однако современные SLM не способны выполнять внутренний, неозвученный мыслительный процесс перед ответом. В отличие от них, люди обычно вовлекаются в сложное внутреннее рассуждение, что позволяет им ясно и лаконично выражать свои идеи. Таким образом, интеграция неозвученного мыслительного процесса в SLM крайне желательна. Хотя наивная генерация полной цепочки рассуждений (chain-of-thought, CoT) перед началом речи может обеспечить мышление для SLM, это приводит к дополнительной задержке речевого ответа, так как CoT-рассуждения могут быть произвольно длинными. Для решения этой проблемы мы предлагаем Stitch — новый метод генерации, который чередует создание фрагментов неозвученных рассуждений и фрагментов устных ответов. Поскольку продолжительность аудио фрагмента устного ответа значительно превышает время генерации токенов в этом фрагменте, мы используем оставшееся свободное время для генерации токенов неозвученных рассуждений. Когда фрагмент аудио воспроизводится пользователю, модель продолжает генерировать следующий фрагмент неозвученных рассуждений, достигая одновременного мышления и говорения. Примечательно, что Stitch соответствует задержке базовых моделей, которые по своей конструкции не могут генерировать неозвученные CoT, при этом превосходя их на 15% на наборах данных для математических рассуждений; Stitch также показывает одинаково хорошие результаты на наборах данных, не требующих рассуждений, по сравнению с базовыми моделями. Некоторые анимации и демонстрации доступны на странице проекта: https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce
spoken responses. However, current SLMs lack the ability to perform an
internal, unspoken thinking process before responding. In contrast, humans
typically engage in complex mental reasoning internally, enabling them to
communicate ideas clearly and concisely. Thus, integrating an unspoken thought
process into SLMs is highly desirable. While naively generating a complete
chain-of-thought (CoT) reasoning before starting to talk can enable thinking
for SLMs, this induces additional latency for the speech response, as the CoT
reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a
novel generation method that alternates between the generation of unspoken
reasoning chunks and spoken response chunks. Since the audio duration of a
chunk of spoken response is much longer than the time to generate the tokens in
a chunk of spoken response, we use the remaining free time to generate the
unspoken reasoning tokens. When a chunk of audio is played to the user, the
model continues to generate the next unspoken reasoning chunk, achieving
simultaneous thinking and talking. Remarkably, Stitch matches the latency of
baselines that cannot generate unspoken CoT by design while outperforming those
baselines by 15% on math reasoning datasets; Stitch also performs equally well
on non-reasoning datasets as those baseline models. Some animations and
demonstrations are on the project page: https://d223302.github.io/STITCH.