Aprendiendo lo que el Aprendizaje por Refuerzo no Puede: Ajuste Fino Intercalado en Línea para las Preguntas más Difíciles

Resumen

Los avances recientes en el razonamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado que comportamientos sofisticados, como la planificación y la autorreflexión, pueden surgir a través del aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, a pesar de estos éxitos, el RL en su forma actual sigue siendo insuficiente para inducir capacidades que superen las limitaciones del modelo base, ya que se optimiza principalmente en función del conocimiento existente del modelo en lugar de facilitar la adquisición de nueva información. Para abordar esta limitación, empleamos el ajuste fino supervisado (SFT, por sus siglas en inglés) para aprender lo que el RL no puede, lo que permite la incorporación de nuevos conocimientos y patrones de razonamiento al aprovechar datos de demostración de alta calidad. Analizamos la dinámica de entrenamiento del RL y el SFT para el razonamiento de LLM y encontramos que el RL sobresale en mantener y mejorar el rendimiento en preguntas dentro de las capacidades originales del modelo, mientras que el SFT es más efectivo para permitir avances en preguntas que van más allá del alcance actual del modelo. Motivados por las fortalezas complementarias del RL y el SFT, introducimos un nuevo enfoque de entrenamiento, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). En ReLIFT, el modelo se entrena principalmente utilizando RL, pero cuando encuentra preguntas desafiantes, se recopilan soluciones de alta calidad para el ajuste fino, y el proceso de entrenamiento alterna entre RL y ajuste fino para mejorar las habilidades de razonamiento del modelo. ReLIFT logra una mejora promedio de más de +5.2 puntos en cinco benchmarks de nivel competitivo y un benchmark fuera de distribución en comparación con otros modelos sin RL. Además, demostramos que ReLIFT supera tanto al RL como al SFT mientras utiliza solo el 13\% de los datos de demostración detallados, destacando su escalabilidad. Estos resultados proporcionan evidencia convincente de que ReLIFT supera las limitaciones fundamentales del RL y subraya su potencial significativo.

English

Recent advances in large language model (LLM) reasoning have shown that sophisticated behaviors such as planning and self-reflection can emerge through reinforcement learning (RL). However, despite these successes, RL in its current form remains insufficient to induce capabilities that exceed the limitations of the base model, as it is primarily optimized based on existing knowledge of the model rather than facilitating the acquisition of new information. To address this limitation, we employ supervised fine-tuning (SFT) to learn what RL cannot, which enables the incorporation of new knowledge and reasoning patterns by leveraging high-quality demonstration data. We analyze the training dynamics of RL and SFT for LLM reasoning and find that RL excels at maintaining and improving performance on questions within the model's original capabilities, while SFT is more effective at enabling progress on questions beyond the current scope of the model. Motivated by the complementary strengths of RL and SFT, we introduce a novel training approach, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). In ReLIFT, the model is primarily trained using RL, but when it encounters challenging questions, high-quality solutions are collected for fine-tuning, and the training process alternates between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT achieves an average improvement of over +5.2 points across five competition-level benchmarks and one out-of-distribution benchmark compared to other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both RL and SFT while using only 13\% of the detailed demonstration data, highlighting its scalability. These results provide compelling evidence that ReLIFT overcomes the fundamental limitations of RL and underscores the significant potential.

Aprendiendo lo que el Aprendizaje por Refuerzo no Puede: Ajuste Fino Intercalado en Línea para las Preguntas más Difíciles

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Resumen

Support