ChatPaper.aiChatPaper

ExGRPO : Apprentissage du raisonnement à partir de l'expérience

ExGRPO: Learning to Reason from Experience

October 2, 2025
papers.authors: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI

papers.abstract

L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) est un paradigme émergent visant à améliorer les capacités de raisonnement des grands modèles de langage. Cependant, l'entraînement standard sur politique unique rejette les expériences de déploiement après une seule mise à jour, entraînant une inefficacité computationnelle et une instabilité. Bien que les travaux antérieurs en apprentissage par renforcement aient mis en avant les avantages de la réutilisation des expériences passées, le rôle des caractéristiques de ces expériences dans la dynamique d'apprentissage des grands modèles de raisonnement reste peu exploré. Dans cet article, nous sommes les premiers à étudier ce qui rend une expérience de raisonnement précieuse et à identifier la justesse du déploiement et l'entropie comme des indicateurs efficaces de la valeur de l'expérience. Sur la base de ces insights, nous proposons ExGRPO (Optimisation Relative de Politique par Groupes Expérientiels), un cadre qui organise et priorise les expériences précieuses, et utilise un objectif de politique mixte pour équilibrer l'exploration et l'exploitation des expériences. Les expériences sur cinq modèles de base (1,5 à 8 milliards de paramètres) montrent qu'ExGRPO améliore systématiquement les performances de raisonnement sur des benchmarks mathématiques/généraux, avec un gain moyen de +3,5/7,6 points par rapport au RLVR sur politique unique. De plus, ExGRPO stabilise l'entraînement sur des modèles plus forts et plus faibles où les méthodes sur politique unique échouent. Ces résultats mettent en évidence la gestion raisonnée des expériences comme un ingrédient clé pour un RLVR efficace et scalable.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.
PDF724October 3, 2025