Aprendizaje por Refuerzo para el Razonamiento en Modelos de Lenguaje a Gran Escala con un Solo Ejemplo de EntrenamientoReinforcement Learning for Reasoning in Large Language Models with One
Training Example
Demostramos que el aprendizaje por refuerzo con recompensa verificable utilizando un solo ejemplo de entrenamiento (RLVR de 1-shot) es efectivo para potenciar las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLMs). Al aplicar RLVR al modelo base Qwen2.5-Math-1.5B, identificamos un único ejemplo que eleva el rendimiento del modelo en MATH500 del 36.0% al 73.6%, y mejora el rendimiento promedio en seis benchmarks comunes de razonamiento matemático del 17.6% al 35.7%. Este resultado coincide con el rendimiento obtenido utilizando el subconjunto DeepScaleR de 1.2k ejemplos (MATH500: 73.6%, promedio: 35.9%), que incluye el ejemplo mencionado. Se observan mejoras sustanciales similares en varios modelos (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmos de RL (GRPO y PPO) y diferentes ejemplos matemáticos (muchos de los cuales producen una mejora de aproximadamente 30% o más en MATH500 cuando se utilizan como un único ejemplo de entrenamiento). Además, identificamos algunos fenómenos interesantes durante RLVR de 1-shot, incluyendo la generalización cruzada entre dominios, un aumento en la frecuencia de autorreflexión y una mejora sostenida en el rendimiento de prueba incluso después de que la precisión en el entrenamiento se ha saturado, un fenómeno que denominamos generalización post-saturación. Asimismo, verificamos que la efectividad de RLVR de 1-shot surge principalmente de la pérdida del gradiente de la política, distinguiéndola del fenómeno de "grokking". También demostramos el papel crítico de fomentar la exploración (por ejemplo, añadiendo una pérdida de entropía con un coeficiente adecuado) en el entrenamiento de RLVR de 1-shot. Como beneficio adicional, observamos que aplicar únicamente la pérdida de entropía, sin ninguna recompensa por resultado, mejora significativamente el rendimiento de Qwen2.5-Math-1.5B en MATH500 en un 27.4%. Estos hallazgos pueden inspirar trabajos futuros sobre la eficiencia de datos en RLVR y fomentar una reevaluación tanto del progreso reciente como de los mecanismos subyacentes en RLVR. Nuestro código, modelo y datos son de código abierto en https://github.com/ypwang61/One-Shot-RLVR.