ExGRPO : Apprentissage du raisonnement à partir de l'expérience
ExGRPO: Learning to Reason from Experience
October 2, 2025
papers.authors: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI
papers.abstract
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) est un paradigme émergent visant à améliorer les capacités de raisonnement des grands modèles de langage. Cependant, l'entraînement standard sur politique unique rejette les expériences de déploiement après une seule mise à jour, entraînant une inefficacité computationnelle et une instabilité. Bien que les travaux antérieurs en apprentissage par renforcement aient mis en avant les avantages de la réutilisation des expériences passées, le rôle des caractéristiques de ces expériences dans la dynamique d'apprentissage des grands modèles de raisonnement reste peu exploré. Dans cet article, nous sommes les premiers à étudier ce qui rend une expérience de raisonnement précieuse et à identifier la justesse du déploiement et l'entropie comme des indicateurs efficaces de la valeur de l'expérience. Sur la base de ces insights, nous proposons ExGRPO (Optimisation Relative de Politique par Groupes Expérientiels), un cadre qui organise et priorise les expériences précieuses, et utilise un objectif de politique mixte pour équilibrer l'exploration et l'exploitation des expériences. Les expériences sur cinq modèles de base (1,5 à 8 milliards de paramètres) montrent qu'ExGRPO améliore systématiquement les performances de raisonnement sur des benchmarks mathématiques/généraux, avec un gain moyen de +3,5/7,6 points par rapport au RLVR sur politique unique. De plus, ExGRPO stabilise l'entraînement sur des modèles plus forts et plus faibles où les méthodes sur politique unique échouent. Ces résultats mettent en évidence la gestion raisonnée des expériences comme un ingrédient clé pour un RLVR efficace et scalable.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm
for improving the reasoning ability of large language models. However, standard
on-policy training discards rollout experiences after a single update, leading
to computational inefficiency and instability. While prior work on RL has
highlighted the benefits of reusing past experience, the role of experience
characteristics in shaping learning dynamics of large reasoning models remains
underexplored. In this paper, we are the first to investigate what makes a
reasoning experience valuable and identify rollout correctness and entropy as
effective indicators of experience value. Based on these insights, we propose
ExGRPO (Experiential Group Relative Policy Optimization), a framework that
organizes and prioritizes valuable experiences, and employs a mixed-policy
objective to balance exploration with experience exploitation. Experiments on
five backbone models (1.5B-8B parameters) show that ExGRPO consistently
improves reasoning performance on mathematical/general benchmarks, with an
average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO
stabilizes training on both stronger and weaker models where on-policy methods
fail. These results highlight principled experience management as a key
ingredient for efficient and scalable RLVR.