ExGRPO: Aprendendo a Raciocinar a partir da Experiência

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) é um paradigma emergente para melhorar a capacidade de raciocínio de modelos de linguagem de grande escala. No entanto, o treinamento on-policy padrão descarta experiências de rollout após uma única atualização, levando a ineficiência computacional e instabilidade. Embora trabalhos anteriores em RL tenham destacado os benefícios de reutilizar experiências passadas, o papel das características da experiência na formação da dinâmica de aprendizado de modelos de raciocínio de grande escala permanece pouco explorado. Neste artigo, somos os primeiros a investigar o que torna uma experiência de raciocínio valiosa e identificamos a correção do rollout e a entropia como indicadores eficazes do valor da experiência. Com base nessas percepções, propomos o ExGRPO (Experiential Group Relative Policy Optimization), uma estrutura que organiza e prioriza experiências valiosas e emprega um objetivo de política mista para equilibrar a exploração com a exploração de experiências. Experimentos em cinco modelos base (1,5B-8B parâmetros) mostram que o ExGRPO melhora consistentemente o desempenho de raciocínio em benchmarks matemáticos/gerais, com um ganho médio de +3,5/7,6 pontos em relação ao RLVR on-policy. Além disso, o ExGRPO estabiliza o treinamento tanto em modelos mais fortes quanto mais fracos, onde métodos on-policy falham. Esses resultados destacam o gerenciamento de experiências fundamentado como um ingrediente chave para um RLVR eficiente e escalável.

English

Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.

ExGRPO: Aprendendo a Raciocinar a partir da Experiência

ExGRPO: Learning to Reason from Experience

Resumo

Support