Feito é Melhor que Perfeito: Desbloqueando Raciocínio Eficiente por Meio de Decomposição Estruturada em Múltiplas Etapas

Resumo

Os Modelos de Raciocínio de Grande Escala (LRMs) são criticados pela extensão excessiva da Cadeia de Pensamento (CoT) necessária para derivar a resposta final, sofrendo com alta latência tanto no primeiro token quanto no geral. Normalmente, a CoT dos LRMs mistura múltiplas unidades de pensamento; cada unidade tenta produzir uma resposta candidata à consulta original. Portanto, uma ideia natural para melhorar a eficiência é reduzir o número de unidades. No entanto, o fato de que as unidades de pensamento na CoT padrão não podem ser explicitamente gerenciadas torna isso desafiador. Este artigo introduz a Decomposição Multi-Turn (MinD) para decodificar a CoT convencional em uma sequência de interações explícitas, estruturadas e turno a turno, a fim de preencher essa lacuna. No MinD, o modelo fornece uma resposta multi-turn à consulta, onde cada turno abraça uma unidade de pensamento e produz uma resposta correspondente. Os turnos subsequentes podem refletir, verificar, revisar ou explorar abordagens alternativas tanto para o pensamento quanto para as partes da resposta dos turnos anteriores. Isso não apenas torna a resposta entregue mais rapidamente, mas também permite controles explícitos sobre o processo de raciocínio iterativo (ou seja, os usuários podem parar ou continuar em qualquer turno). Seguimos um paradigma de ajuste fino supervisionado (SFT) seguido de aprendizado por reforço (RL) para realizar o MinD. Primeiro, reformulamos as saídas de um LRM em formatos multi-turn ao solicitar outro LLM e, em seguida, ajustamos o LRM com esses dados. Observando que o modelo ajustado tende a consumir ainda mais tokens do que o original (provavelmente porque os formatos multi-turn introduzem tokens adicionais de resposta), defendemos a utilização de algoritmos de RL, como GRPO, para priorizar saídas corretas com menos turnos. Treinado no conjunto de dados MATH usando modelos R1-Distill, o MinD pode alcançar uma redução de até ~70% tanto no uso de tokens de saída quanto no tempo para o primeiro token (TTFT), mantendo um desempenho competitivo em benchmarks de raciocínio como MATH-500, AIME24, AMC23 e GPQA-Diamond.

English

Large Reasoning Models (LRMs) are criticized for the excessively lengthy Chain-of-Thought (CoT) to derive the final answer, suffering from high first-token and overall latency. Typically, the CoT of LRMs mixes multiple thinking units; each unit attempts to produce a candidate answer to the original query. Hence, a natural idea to improve efficiency is to reduce the unit number. Yet, the fact that the thinking units in vanilla CoT cannot be explicitly managed renders doing so challenging. This paper introduces Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of explicit, structured, and turn-wise interactions to bridge the gap. In MinD, the model provides a multi-turn response to the query, where each turn embraces a thinking unit and yields a corresponding answer. The subsequent turns can reflect, verify, revise, or explore alternative approaches to both the thinking and answer parts of earlier ones. This not only makes the answer delivered more swiftly, but also enables explicit controls over the iterative reasoning process (i.e., users may halt or continue at any turn). We follow a supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We first rephrase the outputs of an LRM into multi-turn formats by prompting another LLM, and then tune the LRM with such data. Observing that the tuned model tends to consume even more tokens than the original one (probably due to that the multi-turn formats introduce additional answer tokens), we advocate leveraging RL algorithms like GRPO to prioritize correct outputs with fewer turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up to ~70% reduction in both output token usage and time to first token (TTFT), while maintaining competitive performance on reasoning benchmarks such as MATH-500, AIME24, AMC23, and GPQA-Diamond.

Feito é Melhor que Perfeito: Desbloqueando Raciocínio Eficiente por Meio de Decomposição Estruturada em Múltiplas Etapas

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

Resumo

Support