ChatPaper.aiChatPaper

ExGRPO: Leren redeneren vanuit ervaring

ExGRPO: Learning to Reason from Experience

October 2, 2025
Auteurs: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI

Samenvatting

Reinforcement learning from verifiable rewards (RLVR) is een opkomend paradigma voor het verbeteren van het redeneervermogen van grote taalmodelen. Echter, standaard on-policy training verwijdert rollout-ervaringen na een enkele update, wat leidt tot computationele inefficiëntie en instabiliteit. Hoewel eerder werk over RL de voordelen van het hergebruiken van eerdere ervaringen heeft benadrukt, blijft de rol van ervaringskenmerken in het vormgeven van de leer dynamiek van grote redeneermodellen onderbelicht. In dit artikel onderzoeken wij als eerste wat een redeneerervaring waardevol maakt en identificeren we rollout-correctheid en entropie als effectieve indicatoren van ervaringswaarde. Op basis van deze inzichten stellen wij ExGRPO (Experiential Group Relative Policy Optimization) voor, een raamwerk dat waardevolle ervaringen organiseert en prioriteert, en een mixed-policy doelstelling gebruikt om exploratie te balanceren met het benutten van ervaringen. Experimenten op vijf basismodellen (1,5B-8B parameters) laten zien dat ExGRPO consistent de redeneerprestaties verbetert op wiskundige/algemene benchmarks, met een gemiddelde winst van +3,5/7,6 punten ten opzichte van on-policy RLVR. Bovendien stabiliseert ExGRPO de training op zowel sterkere als zwakkere modellen waar on-policy methoden falen. Deze resultaten benadrukken principieel ervaringsmanagement als een cruciaal ingrediënt voor efficiënte en schaalbare RLVR.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.
PDF764October 3, 2025