L'art du raisonnement efficace : Données, récompense et optimisation

Résumé

Les grands modèles de langage (LLM) bénéficient systématiquement d'un raisonnement en chaîne de pensée (CoT) mis à l'échelle, mais souffrent également de lourdes surcharges computationnelles. Pour résoudre ce problème, le raisonnement efficace vise à encourager des trajectoires de pensée courtes mais précises, généralement par le biais d'un façonnage de récompense avec l'apprentissage par renforcement (RL). Dans cet article, nous étudions systématiquement les mécanismes du raisonnement efficace pour les LLM. Pour une évaluation complète, nous préconisons des métriques plus granulaires, incluant la distribution des longueurs conditionnée par la justesse et les performances sur un large spectre de budgets en tokens allant de 2k à 32k. Premièrement, nous révélons que le processus d'entraînement suit un paradigme en deux étapes : l'adaptation de la longueur et l'affinage du raisonnement. Ensuite, nous menons des expériences approfondies (environ 0,2 million d'heures GPU) dans un protocole unifié, en déconstruisant les invites d'entraînement et les déroulements, le façonnage des récompenses et les stratégies d'optimisation. Une découverte clé est notamment la nécessité de s'entraîner sur des invites relativement plus simples, garantissant ainsi la densité des signaux de récompense positifs et évitant l'effondrement de la longueur. Parallèlement, le biais de longueur appris peut être généralisé à travers différents domaines. Nous condensons toutes ces découvertes en insights précieux et en directives pratiques, et les validons ensuite à travers la série Qwen3, allant de 0,6B à 30B, démontrant ainsi la robustesse et la généralisation.

English

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

L'art du raisonnement efficace : Données, récompense et optimisation

The Art of Efficient Reasoning: Data, Reward, and Optimization

Résumé

Support