Uniendo el Aprendizaje Supervisado y el Aprendizaje por Refuerzo en el Razonamiento Matemático
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
May 23, 2025
Autores: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI
Resumen
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha desempeñado un papel central en el reciente auge de las capacidades matemáticas de los Modelos de Lenguaje de Gran Escala (LLMs), permitiendo la auto-mejora a través de señales binarias de verificación. En contraste, el Aprendizaje Supervisado (SL) rara vez se considera para este tipo de entrenamiento basado en verificación, principalmente debido a su fuerte dependencia de respuestas de referencia y su incapacidad para reflexionar sobre los errores. En este trabajo, cuestionamos la noción predominante de que la auto-mejora es exclusiva del RL y proponemos el Ajuste Fino Consciente de lo Negativo (NFT, por sus siglas en inglés) — un enfoque supervisado que permite a los LLMs reflexionar sobre sus fallos y mejorar de manera autónoma sin la necesidad de maestros externos. En el entrenamiento en línea, en lugar de descartar las respuestas negativas generadas por el propio modelo, el NFT construye una política negativa implícita para modelarlas. Esta política implícita se parametriza con el mismo LLM positivo que buscamos optimizar con datos positivos, permitiendo la optimización directa de la política sobre todas las generaciones del LLM. Realizamos experimentos en modelos de 7B y 32B en tareas de razonamiento matemático. Los resultados muestran consistentemente que, al aprovechar adicionalmente la retroalimentación negativa, el NFT mejora significativamente sobre los baselines de SL como el Ajuste Fino por Muestreo de Rechazo, igualando o incluso superando a algoritmos líderes de RL como GRPO y DAPO. Además, demostramos que el NFT y el GRPO son en realidad equivalentes en un entrenamiento estrictamente en política, a pesar de originarse en fundamentos teóricos completamente diferentes. Nuestros experimentos y hallazgos teóricos cierran la brecha entre los métodos de SL y RL en sistemas de aprendizaje con retroalimentación binaria.
English
Reinforcement Learning (RL) has played a central role in the recent surge of
LLMs' math abilities by enabling self-improvement through binary verifier
signals. In contrast, Supervised Learning (SL) is rarely considered for such
verification-driven training, largely due to its heavy reliance on reference
answers and inability to reflect on mistakes. In this work, we challenge the
prevailing notion that self-improvement is exclusive to RL and propose
Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to
reflect on their failures and improve autonomously with no external teachers.
In online training, instead of throwing away self-generated negative answers,
NFT constructs an implicit negative policy to model them. This implicit policy
is parameterized with the same positive LLM we target to optimize on positive
data, enabling direct policy optimization on all LLMs' generations. We conduct
experiments on 7B and 32B models in math reasoning tasks. Results consistently
show that through the additional leverage of negative feedback, NFT
significantly improves over SL baselines like Rejection sampling Fine-Tuning,
matching or even surpassing leading RL algorithms like GRPO and DAPO.
Furthermore, we demonstrate that NFT and GRPO are actually equivalent in
strict-on-policy training, even though they originate from entirely different
theoretical foundations. Our experiments and theoretical findings bridge the
gap between SL and RL methods in binary-feedback learning systems.Summary
AI-Generated Summary