ExGRPO: Aprendizaje para razonar a partir de la experiencia
ExGRPO: Learning to Reason from Experience
October 2, 2025
Autores: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) es un paradigma emergente para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes. Sin embargo, el entrenamiento estándar on-policy descarta las experiencias de ejecución después de una sola actualización, lo que conduce a ineficiencia computacional e inestabilidad. Si bien trabajos previos en RL han destacado los beneficios de reutilizar experiencias pasadas, el papel de las características de la experiencia en la configuración de la dinámica de aprendizaje de modelos de razonamiento grandes sigue siendo poco explorado. En este artículo, somos los primeros en investigar qué hace que una experiencia de razonamiento sea valiosa e identificamos la corrección de la ejecución y la entropía como indicadores efectivos del valor de la experiencia. Basándonos en estas ideas, proponemos ExGRPO (Optimización de Política Relativa de Grupo Experiencial), un marco que organiza y prioriza experiencias valiosas, y emplea un objetivo de política mixta para equilibrar la exploración con la explotación de experiencias. Los experimentos en cinco modelos base (1.5B-8B parámetros) muestran que ExGRPO mejora consistentemente el rendimiento de razonamiento en benchmarks matemáticos/generales, con una ganancia promedio de +3.5/7.6 puntos sobre RLVR on-policy. Además, ExGRPO estabiliza el entrenamiento tanto en modelos más fuertes como más débiles donde los métodos on-policy fallan. Estos resultados destacan la gestión de experiencias basada en principios como un ingrediente clave para un RLVR eficiente y escalable.
English
Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm
for improving the reasoning ability of large language models. However, standard
on-policy training discards rollout experiences after a single update, leading
to computational inefficiency and instability. While prior work on RL has
highlighted the benefits of reusing past experience, the role of experience
characteristics in shaping learning dynamics of large reasoning models remains
underexplored. In this paper, we are the first to investigate what makes a
reasoning experience valuable and identify rollout correctness and entropy as
effective indicators of experience value. Based on these insights, we propose
ExGRPO (Experiential Group Relative Policy Optimization), a framework that
organizes and prioritizes valuable experiences, and employs a mixed-policy
objective to balance exploration with experience exploitation. Experiments on
five backbone models (1.5B-8B parameters) show that ExGRPO consistently
improves reasoning performance on mathematical/general benchmarks, with an
average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO
stabilizes training on both stronger and weaker models where on-policy methods
fail. These results highlight principled experience management as a key
ingredient for efficient and scalable RLVR.