ChatPaper.aiChatPaper

Aprendizaje por Refuerzo para el Razonamiento en Modelos de Lenguaje a Gran Escala con un Solo Ejemplo de Entrenamiento

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

April 29, 2025
Autores: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI

Resumen

Demostramos que el aprendizaje por refuerzo con recompensa verificable utilizando un solo ejemplo de entrenamiento (RLVR de 1-shot) es efectivo para potenciar las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLMs). Al aplicar RLVR al modelo base Qwen2.5-Math-1.5B, identificamos un único ejemplo que eleva el rendimiento del modelo en MATH500 del 36.0% al 73.6%, y mejora el rendimiento promedio en seis benchmarks comunes de razonamiento matemático del 17.6% al 35.7%. Este resultado coincide con el rendimiento obtenido utilizando el subconjunto DeepScaleR de 1.2k ejemplos (MATH500: 73.6%, promedio: 35.9%), que incluye el ejemplo mencionado. Se observan mejoras sustanciales similares en varios modelos (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmos de RL (GRPO y PPO) y diferentes ejemplos matemáticos (muchos de los cuales producen una mejora de aproximadamente 30% o más en MATH500 cuando se utilizan como un único ejemplo de entrenamiento). Además, identificamos algunos fenómenos interesantes durante RLVR de 1-shot, incluyendo la generalización cruzada entre dominios, un aumento en la frecuencia de autorreflexión y una mejora sostenida en el rendimiento de prueba incluso después de que la precisión en el entrenamiento se ha saturado, un fenómeno que denominamos generalización post-saturación. Asimismo, verificamos que la efectividad de RLVR de 1-shot surge principalmente de la pérdida del gradiente de la política, distinguiéndola del fenómeno de "grokking". También demostramos el papel crítico de fomentar la exploración (por ejemplo, añadiendo una pérdida de entropía con un coeficiente adecuado) en el entrenamiento de RLVR de 1-shot. Como beneficio adicional, observamos que aplicar únicamente la pérdida de entropía, sin ninguna recompensa por resultado, mejora significativamente el rendimiento de Qwen2.5-Math-1.5B en MATH500 en un 27.4%. Estos hallazgos pueden inspirar trabajos futuros sobre la eficiencia de datos en RLVR y fomentar una reevaluación tanto del progreso reciente como de los mecanismos subyacentes en RLVR. Nuestro código, modelo y datos son de código abierto en https://github.com/ypwang61/One-Shot-RLVR.
English
We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the "grokking" phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR

Summary

AI-Generated Summary

PDF363April 30, 2025