Partie I : Astuces ou pièges ? Une plongée approfondie dans l'apprentissage par renforcement pour le raisonnement des modèles de langage
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning
August 11, 2025
papers.authors: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
cs.AI
papers.abstract
L'apprentissage par renforcement pour le raisonnement des modèles de langage de grande taille (LLM) a rapidement émergé comme un domaine de recherche majeur, marqué par une augmentation significative des études portant à la fois sur les innovations algorithmiques et les applications pratiques. Malgré ces avancées, plusieurs défis critiques subsistent, notamment l'absence de lignes directrices standardisées pour l'utilisation des techniques d'apprentissage par renforcement (RL) et une compréhension fragmentée de leurs mécanismes sous-jacents. De plus, des configurations expérimentales incohérentes, des variations dans les données d'entraînement et des différences dans l'initialisation des modèles ont conduit à des conclusions contradictoires, obscurcissant les caractéristiques clés de ces techniques et créant de la confusion parmi les praticiens lors du choix des méthodes appropriées. Cet article passe en revue de manière systématique les techniques de RL largement adoptées, à travers des reproductions rigoureuses et des évaluations isolées dans un cadre open-source unifié. Nous analysons les mécanismes internes, les scénarios applicables et les principes fondamentaux de chaque technique grâce à des expériences granulaires, incluant des jeux de données de difficulté variable, des tailles de modèles et des architectures différentes. Sur la base de ces observations, nous proposons des lignes directrices claires pour sélectionner les techniques de RL adaptées à des configurations spécifiques, et fournissons une feuille de route fiable pour les praticiens naviguant dans le domaine du RL pour les LLM. Enfin, nous révélons qu'une combinaison minimaliste de deux techniques peut débloquer la capacité d'apprentissage des politiques sans critique en utilisant une simple perte PPO. Les résultats démontrent que notre combinaison simple améliore systématiquement les performances, surpassant des stratégies comme GRPO et DAPO.
English
Reinforcement learning for LLM reasoning has rapidly emerged as a prominent
research area, marked by a significant surge in related studies on both
algorithmic innovations and practical applications. Despite this progress,
several critical challenges remain, including the absence of standardized
guidelines for employing RL techniques and a fragmented understanding of their
underlying mechanisms. Additionally, inconsistent experimental settings,
variations in training data, and differences in model initialization have led
to conflicting conclusions, obscuring the key characteristics of these
techniques and creating confusion among practitioners when selecting
appropriate techniques. This paper systematically reviews widely adopted RL
techniques through rigorous reproductions and isolated evaluations within a
unified open-source framework. We analyze the internal mechanisms, applicable
scenarios, and core principles of each technique through fine-grained
experiments, including datasets of varying difficulty, model sizes, and
architectures. Based on these insights, we present clear guidelines for
selecting RL techniques tailored to specific setups, and provide a reliable
roadmap for practitioners navigating the RL for the LLM domain. Finally, we
reveal that a minimalist combination of two techniques can unlock the learning
capability of critic-free policies using vanilla PPO loss. The results
demonstrate that our simple combination consistently improves performance,
surpassing strategies like GRPO and DAPO.