ChatPaper.aiChatPaper

STITCH: Pensamiento y Habla Simultáneos con Razonamiento Segmentado para Modelos de Lenguaje Hablado

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

July 21, 2025
Autores: Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Resumen

Los Modelos de Lenguaje Hablado (SLMs, por sus siglas en inglés) están diseñados para recibir entradas de voz y producir respuestas habladas. Sin embargo, los SLMs actuales carecen de la capacidad de realizar un proceso de pensamiento interno y no verbalizado antes de responder. En contraste, los seres humanos suelen involucrarse en un razonamiento mental complejo de manera interna, lo que les permite comunicar ideas de forma clara y concisa. Por lo tanto, integrar un proceso de pensamiento no verbalizado en los SLMs es altamente deseable. Si bien generar de manera ingenua una cadena completa de razonamiento (CoT, por sus siglas en inglés) antes de comenzar a hablar puede permitir el pensamiento en los SLMs, esto introduce una latencia adicional en la respuesta hablada, ya que el razonamiento CoT puede ser arbitrariamente largo. Para resolver este problema, proponemos Stitch, un método novedoso de generación que alterna entre la generación de fragmentos de razonamiento no verbalizado y fragmentos de respuesta hablada. Dado que la duración del audio de un fragmento de respuesta hablada es mucho mayor que el tiempo necesario para generar los tokens en un fragmento de respuesta hablada, utilizamos el tiempo libre restante para generar los tokens de razonamiento no verbalizado. Cuando un fragmento de audio se reproduce para el usuario, el modelo continúa generando el siguiente fragmento de razonamiento no verbalizado, logrando así pensar y hablar simultáneamente. Notablemente, Stitch iguala la latencia de los modelos de referencia que, por diseño, no pueden generar CoT no verbalizado, mientras supera a esos modelos de referencia en un 15% en conjuntos de datos de razonamiento matemático; Stitch también funciona igual de bien en conjuntos de datos no relacionados con el razonamiento en comparación con esos modelos de referencia. Algunas animaciones y demostraciones están disponibles en la página del proyecto: https://d223302.github.io/STITCH.
English
Spoken Language Models (SLMs) are designed to take speech inputs and produce spoken responses. However, current SLMs lack the ability to perform an internal, unspoken thinking process before responding. In contrast, humans typically engage in complex mental reasoning internally, enabling them to communicate ideas clearly and concisely. Thus, integrating an unspoken thought process into SLMs is highly desirable. While naively generating a complete chain-of-thought (CoT) reasoning before starting to talk can enable thinking for SLMs, this induces additional latency for the speech response, as the CoT reasoning can be arbitrarily long. To solve this issue, we propose Stitch, a novel generation method that alternates between the generation of unspoken reasoning chunks and spoken response chunks. Since the audio duration of a chunk of spoken response is much longer than the time to generate the tokens in a chunk of spoken response, we use the remaining free time to generate the unspoken reasoning tokens. When a chunk of audio is played to the user, the model continues to generate the next unspoken reasoning chunk, achieving simultaneous thinking and talking. Remarkably, Stitch matches the latency of baselines that cannot generate unspoken CoT by design while outperforming those baselines by 15% on math reasoning datasets; Stitch also performs equally well on non-reasoning datasets as those baseline models. Some animations and demonstrations are on the project page: https://d223302.github.io/STITCH.
PDF231July 22, 2025