ChatPaper.aiChatPaper

STITCH: Pensamento e Fala Simultâneos com Raciocínio Segmentado para Modelos de Linguagem Falada

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

July 21, 2025
Autores: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Resumo

Modelos de Linguagem Falada (SLMs, do inglês Spoken Language Models) são projetados para receber entradas de fala e produzir respostas faladas. No entanto, os SLMs atuais não possuem a capacidade de realizar um processo interno e não falado de pensamento antes de responder. Em contraste, os humanos geralmente se envolvem em raciocínios mentais complexos internamente, permitindo que comuniquem ideias de forma clara e concisa. Portanto, integrar um processo de pensamento não falado aos SLMs é altamente desejável. Embora gerar de forma ingênua uma cadeia completa de raciocínio (CoT, do inglês Chain-of-Thought) antes de começar a falar possa permitir o pensamento para SLMs, isso induz uma latência adicional para a resposta de fala, já que o raciocínio CoT pode ser arbitrariamente longo. Para resolver esse problema, propomos Stitch, um novo método de geração que alterna entre a geração de blocos de raciocínio não falado e blocos de resposta falada. Como a duração do áudio de um bloco de resposta falada é muito maior do que o tempo para gerar os tokens em um bloco de resposta falada, utilizamos o tempo livre restante para gerar os tokens de raciocínio não falado. Quando um bloco de áudio é reproduzido para o usuário, o modelo continua a gerar o próximo bloco de raciocínio não falado, alcançando pensamento e fala simultâneos. Notavelmente, o Stitch iguala a latência de modelos de referência que, por design, não podem gerar CoT não falado, enquanto supera esses modelos de referência em 15% em conjuntos de dados de raciocínio matemático; o Stitch também se sai igualmente bem em conjuntos de dados não relacionados a raciocínio, comparado a esses modelos de referência. Algumas animações e demonstrações estão disponíveis na página do projeto: https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
PDF251July 22, 2025