ExGRPO: Lernen, aus Erfahrung zu schlussfolgern

papers.abstract

Reinforcement Learning aus verifizierbaren Belohnungen (RLVR) ist ein aufstrebendes Paradigma zur Verbesserung der Fähigkeit großer Sprachmodelle zum logischen Schlussfolgern. Allerdings verwirft das Standard-On-Policy-Training Rollout-Erfahrungen nach einer einzigen Aktualisierung, was zu Rechenineffizienz und Instabilität führt. Während frühere Arbeiten zu RL die Vorteile der Wiederverwendung vergangener Erfahrungen hervorgehoben haben, bleibt die Rolle von Erfahrungsmerkmalen bei der Gestaltung der Lern dynamik großer Schlussfolgerungsmodelle weitgehend unerforscht. In dieser Arbeit untersuchen wir erstmals, was eine Schlussfolgerungserfahrung wertvoll macht, und identifizieren die Korrektheit des Rollouts und die Entropie als effektive Indikatoren für den Erfahrungswert. Basierend auf diesen Erkenntnissen schlagen wir ExGRPO (Experiential Group Relative Policy Optimization) vor, ein Framework, das wertvolle Erfahrungen organisiert und priorisiert und ein gemischtes Policy-Ziel verwendet, um Exploration mit der Nutzung von Erfahrungen auszugleichen. Experimente mit fünf Basismodellen (1,5B–8B Parameter) zeigen, dass ExGRPO die Leistung beim logischen Schlussfolgern auf mathematischen/allgemeinen Benchmarks konsequent verbessert, mit einem durchschnittlichen Gewinn von +3,5/7,6 Punkten gegenüber On-Policy RLVR. Darüber hinaus stabilisiert ExGRPO das Training sowohl bei stärkeren als auch bei schwächeren Modellen, bei denen On-Policy-Methoden scheitern. Diese Ergebnisse unterstreichen die prinzipielle Erfahrungsverwaltung als einen Schlüsselfaktor für effizientes und skalierbares RLVR.

English

Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.

ExGRPO: Lernen, aus Erfahrung zu schlussfolgern

ExGRPO: Learning to Reason from Experience

papers.abstract

Support