ExGRPO: Aprendendo a Raciocinar a partir da Experiência
ExGRPO: Learning to Reason from Experience
October 2, 2025
Autores: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) é um paradigma emergente para melhorar a capacidade de raciocínio de modelos de linguagem de grande escala. No entanto, o treinamento on-policy padrão descarta experiências de rollout após uma única atualização, levando a ineficiência computacional e instabilidade. Embora trabalhos anteriores em RL tenham destacado os benefícios de reutilizar experiências passadas, o papel das características da experiência na formação da dinâmica de aprendizado de modelos de raciocínio de grande escala permanece pouco explorado. Neste artigo, somos os primeiros a investigar o que torna uma experiência de raciocínio valiosa e identificamos a correção do rollout e a entropia como indicadores eficazes do valor da experiência. Com base nessas percepções, propomos o ExGRPO (Experiential Group Relative Policy Optimization), uma estrutura que organiza e prioriza experiências valiosas e emprega um objetivo de política mista para equilibrar a exploração com a exploração de experiências. Experimentos em cinco modelos base (1,5B-8B parâmetros) mostram que o ExGRPO melhora consistentemente o desempenho de raciocínio em benchmarks matemáticos/gerais, com um ganho médio de +3,5/7,6 pontos em relação ao RLVR on-policy. Além disso, o ExGRPO estabiliza o treinamento tanto em modelos mais fortes quanto mais fracos, onde métodos on-policy falham. Esses resultados destacam o gerenciamento de experiências fundamentado como um ingrediente chave para um RLVR eficiente e escalável.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm
for improving the reasoning ability of large language models. However, standard
on-policy training discards rollout experiences after a single update, leading
to computational inefficiency and instability. While prior work on RL has
highlighted the benefits of reusing past experience, the role of experience
characteristics in shaping learning dynamics of large reasoning models remains
underexplored. In this paper, we are the first to investigate what makes a
reasoning experience valuable and identify rollout correctness and entropy as
effective indicators of experience value. Based on these insights, we propose
ExGRPO (Experiential Group Relative Policy Optimization), a framework that
organizes and prioritizes valuable experiences, and employs a mixed-policy
objective to balance exploration with experience exploitation. Experiments on
five backbone models (1.5B-8B parameters) show that ExGRPO consistently
improves reasoning performance on mathematical/general benchmarks, with an
average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO
stabilizes training on both stronger and weaker models where on-policy methods
fail. These results highlight principled experience management as a key
ingredient for efficient and scalable RLVR.