Faire est mieux que parfait : Débloquer un raisonnement efficace par une décomposition structurée en tours multiples

papers.abstract

Les modèles de raisonnement à grande échelle (LRMs) sont critiqués pour leur chaîne de pensée (Chain-of-Thought, CoT) excessivement longue afin de dériver la réponse finale, souffrant ainsi d'une latence élevée pour le premier jeton et globale. Typiquement, la CoT des LRMs mélange plusieurs unités de pensée ; chaque unité tente de produire une réponse candidate à la requête initiale. Par conséquent, une idée naturelle pour améliorer l'efficacité est de réduire le nombre d'unités. Cependant, le fait que les unités de pensée dans la CoT classique ne puissent pas être explicitement gérées rend cette tâche difficile. Cet article introduit la décomposition multi-tours (Multi-Turn Decomposition, MinD) pour décoder la CoT conventionnelle en une séquence d'interactions explicites, structurées et tour par tour, afin de combler cet écart. Dans MinD, le modèle fournit une réponse multi-tours à la requête, où chaque tour intègre une unité de pensée et produit une réponse correspondante. Les tours suivants peuvent réfléchir, vérifier, réviser ou explorer des approches alternatives à la fois pour la pensée et les réponses des tours précédents. Cela permet non seulement de délivrer la réponse plus rapidement, mais aussi d'offrir un contrôle explicite sur le processus de raisonnement itératif (c'est-à-dire que les utilisateurs peuvent arrêter ou continuer à tout moment). Nous suivons un paradigme de fine-tuning supervisé (SFT) puis d'apprentissage par renforcement (RL) pour réaliser MinD. Nous reformulons d'abord les sorties d'un LRM en formats multi-tours en incitant un autre LLM, puis ajustons le LRM avec ces données. Observant que le modèle ajusté a tendance à consommer encore plus de jetons que l'original (probablement parce que les formats multi-tours introduisent des jetons de réponse supplémentaires), nous préconisons d'utiliser des algorithmes de RL comme GRPO pour privilégier les sorties correctes avec moins de tours. Entraîné sur le jeu de données MATH en utilisant les modèles R1-Distill, MinD peut atteindre jusqu'à ~70 % de réduction à la fois dans l'utilisation des jetons de sortie et dans le temps jusqu'au premier jeton (TTFT), tout en maintenant des performances compétitives sur des benchmarks de raisonnement tels que MATH-500, AIME24, AMC23 et GPQA-Diamond.

English

Large Reasoning Models (LRMs) are criticized for the excessively lengthy Chain-of-Thought (CoT) to derive the final answer, suffering from high first-token and overall latency. Typically, the CoT of LRMs mixes multiple thinking units; each unit attempts to produce a candidate answer to the original query. Hence, a natural idea to improve efficiency is to reduce the unit number. Yet, the fact that the thinking units in vanilla CoT cannot be explicitly managed renders doing so challenging. This paper introduces Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of explicit, structured, and turn-wise interactions to bridge the gap. In MinD, the model provides a multi-turn response to the query, where each turn embraces a thinking unit and yields a corresponding answer. The subsequent turns can reflect, verify, revise, or explore alternative approaches to both the thinking and answer parts of earlier ones. This not only makes the answer delivered more swiftly, but also enables explicit controls over the iterative reasoning process (i.e., users may halt or continue at any turn). We follow a supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We first rephrase the outputs of an LRM into multi-turn formats by prompting another LLM, and then tune the LRM with such data. Observing that the tuned model tends to consume even more tokens than the original one (probably due to that the multi-turn formats introduce additional answer tokens), we advocate leveraging RL algorithms like GRPO to prioritize correct outputs with fewer turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up to ~70% reduction in both output token usage and time to first token (TTFT), while maintaining competitive performance on reasoning benchmarks such as MATH-500, AIME24, AMC23, and GPQA-Diamond.

Faire est mieux que parfait : Débloquer un raisonnement efficace par une décomposition structurée en tours multiples

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

papers.abstract

Support