Faire est mieux que parfait : Débloquer un raisonnement efficace par une décomposition structurée en tours multiples
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition
May 26, 2025
Auteurs: Zihao Zeng, Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng
cs.AI
Résumé
Les modèles de raisonnement à grande échelle (LRMs) sont critiqués pour leur chaîne de pensée (Chain-of-Thought, CoT) excessivement longue afin de dériver la réponse finale, souffrant ainsi d'une latence élevée pour le premier jeton et globale. Typiquement, la CoT des LRMs mélange plusieurs unités de pensée ; chaque unité tente de produire une réponse candidate à la requête initiale. Par conséquent, une idée naturelle pour améliorer l'efficacité est de réduire le nombre d'unités. Cependant, le fait que les unités de pensée dans la CoT classique ne puissent pas être explicitement gérées rend cette tâche difficile. Cet article introduit la décomposition multi-tours (Multi-Turn Decomposition, MinD) pour décoder la CoT conventionnelle en une séquence d'interactions explicites, structurées et tour par tour, afin de combler cet écart. Dans MinD, le modèle fournit une réponse multi-tours à la requête, où chaque tour intègre une unité de pensée et produit une réponse correspondante. Les tours suivants peuvent réfléchir, vérifier, réviser ou explorer des approches alternatives à la fois pour la pensée et les réponses des tours précédents. Cela permet non seulement de délivrer la réponse plus rapidement, mais aussi d'offrir un contrôle explicite sur le processus de raisonnement itératif (c'est-à-dire que les utilisateurs peuvent arrêter ou continuer à tout moment). Nous suivons un paradigme de fine-tuning supervisé (SFT) puis d'apprentissage par renforcement (RL) pour réaliser MinD. Nous reformulons d'abord les sorties d'un LRM en formats multi-tours en incitant un autre LLM, puis ajustons le LRM avec ces données. Observant que le modèle ajusté a tendance à consommer encore plus de jetons que l'original (probablement parce que les formats multi-tours introduisent des jetons de réponse supplémentaires), nous préconisons d'utiliser des algorithmes de RL comme GRPO pour privilégier les sorties correctes avec moins de tours. Entraîné sur le jeu de données MATH en utilisant les modèles R1-Distill, MinD peut atteindre jusqu'à ~70 % de réduction à la fois dans l'utilisation des jetons de sortie et dans le temps jusqu'au premier jeton (TTFT), tout en maintenant des performances compétitives sur des benchmarks de raisonnement tels que MATH-500, AIME24, AMC23 et GPQA-Diamond.
English
Large Reasoning Models (LRMs) are criticized for the excessively lengthy
Chain-of-Thought (CoT) to derive the final answer, suffering from high
first-token and overall latency. Typically, the CoT of LRMs mixes multiple
thinking units; each unit attempts to produce a candidate answer to the
original query. Hence, a natural idea to improve efficiency is to reduce the
unit number. Yet, the fact that the thinking units in vanilla CoT cannot be
explicitly managed renders doing so challenging. This paper introduces
Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of
explicit, structured, and turn-wise interactions to bridge the gap. In MinD,
the model provides a multi-turn response to the query, where each turn embraces
a thinking unit and yields a corresponding answer. The subsequent turns can
reflect, verify, revise, or explore alternative approaches to both the thinking
and answer parts of earlier ones. This not only makes the answer delivered more
swiftly, but also enables explicit controls over the iterative reasoning
process (i.e., users may halt or continue at any turn). We follow a supervised
fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We
first rephrase the outputs of an LRM into multi-turn formats by prompting
another LLM, and then tune the LRM with such data. Observing that the tuned
model tends to consume even more tokens than the original one (probably due to
that the multi-turn formats introduce additional answer tokens), we advocate
leveraging RL algorithms like GRPO to prioritize correct outputs with fewer
turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up
to ~70% reduction in both output token usage and time to first token (TTFT),
while maintaining competitive performance on reasoning benchmarks such as
MATH-500, AIME24, AMC23, and GPQA-Diamond.Summary
AI-Generated Summary