ExGRPO: Aprendizaje para razonar a partir de la experiencia

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) es un paradigma emergente para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes. Sin embargo, el entrenamiento estándar on-policy descarta las experiencias de ejecución después de una sola actualización, lo que conduce a ineficiencia computacional e inestabilidad. Si bien trabajos previos en RL han destacado los beneficios de reutilizar experiencias pasadas, el papel de las características de la experiencia en la configuración de la dinámica de aprendizaje de modelos de razonamiento grandes sigue siendo poco explorado. En este artículo, somos los primeros en investigar qué hace que una experiencia de razonamiento sea valiosa e identificamos la corrección de la ejecución y la entropía como indicadores efectivos del valor de la experiencia. Basándonos en estas ideas, proponemos ExGRPO (Optimización de Política Relativa de Grupo Experiencial), un marco que organiza y prioriza experiencias valiosas, y emplea un objetivo de política mixta para equilibrar la exploración con la explotación de experiencias. Los experimentos en cinco modelos base (1.5B-8B parámetros) muestran que ExGRPO mejora consistentemente el rendimiento de razonamiento en benchmarks matemáticos/generales, con una ganancia promedio de +3.5/7.6 puntos sobre RLVR on-policy. Además, ExGRPO estabiliza el entrenamiento tanto en modelos más fuertes como más débiles donde los métodos on-policy fallan. Estos resultados destacan la gestión de experiencias basada en principios como un ingrediente clave para un RLVR eficiente y escalable.

English

Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.

ExGRPO: Aprendizaje para razonar a partir de la experiencia

ExGRPO: Learning to Reason from Experience

Resumen

Support