ExGRPO: Leren redeneren vanuit ervaring
ExGRPO: Learning to Reason from Experience
October 2, 2025
Auteurs: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI
Samenvatting
Reinforcement learning from verifiable rewards (RLVR) is een opkomend paradigma voor het verbeteren van het redeneervermogen van grote taalmodelen. Echter, standaard on-policy training verwijdert rollout-ervaringen na een enkele update, wat leidt tot computationele inefficiëntie en instabiliteit. Hoewel eerder werk over RL de voordelen van het hergebruiken van eerdere ervaringen heeft benadrukt, blijft de rol van ervaringskenmerken in het vormgeven van de leer dynamiek van grote redeneermodellen onderbelicht. In dit artikel onderzoeken wij als eerste wat een redeneerervaring waardevol maakt en identificeren we rollout-correctheid en entropie als effectieve indicatoren van ervaringswaarde. Op basis van deze inzichten stellen wij ExGRPO (Experiential Group Relative Policy Optimization) voor, een raamwerk dat waardevolle ervaringen organiseert en prioriteert, en een mixed-policy doelstelling gebruikt om exploratie te balanceren met het benutten van ervaringen. Experimenten op vijf basismodellen (1,5B-8B parameters) laten zien dat ExGRPO consistent de redeneerprestaties verbetert op wiskundige/algemene benchmarks, met een gemiddelde winst van +3,5/7,6 punten ten opzichte van on-policy RLVR. Bovendien stabiliseert ExGRPO de training op zowel sterkere als zwakkere modellen waar on-policy methoden falen. Deze resultaten benadrukken principieel ervaringsmanagement als een cruciaal ingrediënt voor efficiënte en schaalbare RLVR.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm
for improving the reasoning ability of large language models. However, standard
on-policy training discards rollout experiences after a single update, leading
to computational inefficiency and instability. While prior work on RL has
highlighted the benefits of reusing past experience, the role of experience
characteristics in shaping learning dynamics of large reasoning models remains
underexplored. In this paper, we are the first to investigate what makes a
reasoning experience valuable and identify rollout correctness and entropy as
effective indicators of experience value. Based on these insights, we propose
ExGRPO (Experiential Group Relative Policy Optimization), a framework that
organizes and prioritizes valuable experiences, and employs a mixed-policy
objective to balance exploration with experience exploitation. Experiments on
five backbone models (1.5B-8B parameters) show that ExGRPO consistently
improves reasoning performance on mathematical/general benchmarks, with an
average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO
stabilizes training on both stronger and weaker models where on-policy methods
fail. These results highlight principled experience management as a key
ingredient for efficient and scalable RLVR.