ExGRPO: Lernen, aus Erfahrung zu schlussfolgern
ExGRPO: Learning to Reason from Experience
October 2, 2025
papers.authors: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI
papers.abstract
Reinforcement Learning aus verifizierbaren Belohnungen (RLVR) ist ein aufstrebendes Paradigma zur Verbesserung der Fähigkeit großer Sprachmodelle zum logischen Schlussfolgern. Allerdings verwirft das Standard-On-Policy-Training Rollout-Erfahrungen nach einer einzigen Aktualisierung, was zu Rechenineffizienz und Instabilität führt. Während frühere Arbeiten zu RL die Vorteile der Wiederverwendung vergangener Erfahrungen hervorgehoben haben, bleibt die Rolle von Erfahrungsmerkmalen bei der Gestaltung der Lern dynamik großer Schlussfolgerungsmodelle weitgehend unerforscht. In dieser Arbeit untersuchen wir erstmals, was eine Schlussfolgerungserfahrung wertvoll macht, und identifizieren die Korrektheit des Rollouts und die Entropie als effektive Indikatoren für den Erfahrungswert. Basierend auf diesen Erkenntnissen schlagen wir ExGRPO (Experiential Group Relative Policy Optimization) vor, ein Framework, das wertvolle Erfahrungen organisiert und priorisiert und ein gemischtes Policy-Ziel verwendet, um Exploration mit der Nutzung von Erfahrungen auszugleichen. Experimente mit fünf Basismodellen (1,5B–8B Parameter) zeigen, dass ExGRPO die Leistung beim logischen Schlussfolgern auf mathematischen/allgemeinen Benchmarks konsequent verbessert, mit einem durchschnittlichen Gewinn von +3,5/7,6 Punkten gegenüber On-Policy RLVR. Darüber hinaus stabilisiert ExGRPO das Training sowohl bei stärkeren als auch bei schwächeren Modellen, bei denen On-Policy-Methoden scheitern. Diese Ergebnisse unterstreichen die prinzipielle Erfahrungsverwaltung als einen Schlüsselfaktor für effizientes und skalierbares RLVR.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm
for improving the reasoning ability of large language models. However, standard
on-policy training discards rollout experiences after a single update, leading
to computational inefficiency and instability. While prior work on RL has
highlighted the benefits of reusing past experience, the role of experience
characteristics in shaping learning dynamics of large reasoning models remains
underexplored. In this paper, we are the first to investigate what makes a
reasoning experience valuable and identify rollout correctness and entropy as
effective indicators of experience value. Based on these insights, we propose
ExGRPO (Experiential Group Relative Policy Optimization), a framework that
organizes and prioritizes valuable experiences, and employs a mixed-policy
objective to balance exploration with experience exploitation. Experiments on
five backbone models (1.5B-8B parameters) show that ExGRPO consistently
improves reasoning performance on mathematical/general benchmarks, with an
average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO
stabilizes training on both stronger and weaker models where on-policy methods
fail. These results highlight principled experience management as a key
ingredient for efficient and scalable RLVR.