Hecho es mejor que perfecto: Desbloqueando el razonamiento eficiente mediante la descomposición estructurada en múltiples pasos

Resumen

Los Modelos de Razonamiento de Gran Escala (LRMs, por sus siglas en inglés) son criticados por la excesiva longitud de la Cadena de Pensamiento (CoT, Chain-of-Thought) necesaria para derivar la respuesta final, lo que resulta en una alta latencia tanto en el primer token como en general. Normalmente, la CoT de los LRMs combina múltiples unidades de pensamiento; cada unidad intenta producir una respuesta candidata a la consulta original. Por lo tanto, una idea natural para mejorar la eficiencia es reducir el número de unidades. Sin embargo, el hecho de que las unidades de pensamiento en la CoT estándar no puedan gestionarse explícitamente hace que esto sea un desafío. Este artículo introduce la Descomposición Multi-Turn (MinD, Multi-Turn Decomposition) para decodificar la CoT convencional en una secuencia de interacciones explícitas, estructuradas y por turnos, con el fin de cerrar esta brecha. En MinD, el modelo proporciona una respuesta multi-turno a la consulta, donde cada turno abarca una unidad de pensamiento y produce una respuesta correspondiente. Los turnos posteriores pueden reflexionar, verificar, revisar o explorar enfoques alternativos tanto en la parte de pensamiento como en la de respuesta de los turnos anteriores. Esto no solo permite que la respuesta se entregue más rápidamente, sino que también habilita controles explícitos sobre el proceso de razonamiento iterativo (es decir, los usuarios pueden detener o continuar en cualquier turno). Seguimos un paradigma de ajuste fino supervisado (SFT, Supervised Fine-Tuning) seguido de aprendizaje por refuerzo (RL, Reinforcement Learning) para implementar MinD. Primero, reformulamos las salidas de un LRM en formatos multi-turno mediante la solicitud a otro LLM (Modelo de Lenguaje de Gran Escala), y luego ajustamos el LRM con dichos datos. Al observar que el modelo ajustado tiende a consumir incluso más tokens que el original (probablemente debido a que los formatos multi-turno introducen tokens adicionales en las respuestas), proponemos aprovechar algoritmos de RL como GRPO para priorizar salidas correctas con menos turnos. Entrenado en el conjunto de datos MATH utilizando modelos R1-Distill, MinD puede lograr una reducción de hasta ~70% tanto en el uso de tokens de salida como en el tiempo hasta el primer token (TTFT, Time to First Token), manteniendo un rendimiento competitivo en benchmarks de razonamiento como MATH-500, AIME24, AMC23 y GPQA-Diamond.

English

Large Reasoning Models (LRMs) are criticized for the excessively lengthy Chain-of-Thought (CoT) to derive the final answer, suffering from high first-token and overall latency. Typically, the CoT of LRMs mixes multiple thinking units; each unit attempts to produce a candidate answer to the original query. Hence, a natural idea to improve efficiency is to reduce the unit number. Yet, the fact that the thinking units in vanilla CoT cannot be explicitly managed renders doing so challenging. This paper introduces Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of explicit, structured, and turn-wise interactions to bridge the gap. In MinD, the model provides a multi-turn response to the query, where each turn embraces a thinking unit and yields a corresponding answer. The subsequent turns can reflect, verify, revise, or explore alternative approaches to both the thinking and answer parts of earlier ones. This not only makes the answer delivered more swiftly, but also enables explicit controls over the iterative reasoning process (i.e., users may halt or continue at any turn). We follow a supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We first rephrase the outputs of an LRM into multi-turn formats by prompting another LLM, and then tune the LRM with such data. Observing that the tuned model tends to consume even more tokens than the original one (probably due to that the multi-turn formats introduce additional answer tokens), we advocate leveraging RL algorithms like GRPO to prioritize correct outputs with fewer turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up to ~70% reduction in both output token usage and time to first token (TTFT), while maintaining competitive performance on reasoning benchmarks such as MATH-500, AIME24, AMC23, and GPQA-Diamond.

Hecho es mejor que perfecto: Desbloqueando el razonamiento eficiente mediante la descomposición estructurada en múltiples pasos

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

Resumen

Support