Conectando Aprendizado Supervisionado e Aprendizado por Reforço no Raciocínio Matemático
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
May 23, 2025
Autores: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI
Resumo
O Aprendizado por Reforço (RL) desempenhou um papel central no recente avanço das habilidades matemáticas dos LLMs (Large Language Models), permitindo a autoaprimoramento por meio de sinais binários de verificação. Em contraste, o Aprendizado Supervisionado (SL) raramente é considerado para esse tipo de treinamento orientado por verificação, principalmente devido à sua forte dependência de respostas de referência e à incapacidade de refletir sobre erros. Neste trabalho, desafiamos a noção predominante de que o autoaprimoramento é exclusivo do RL e propomos o Fine-Tuning Consciente de Negativos (NFT) — uma abordagem supervisionada que permite que os LLMs reflitam sobre seus fracassos e melhorem autonomamente, sem a necessidade de professores externos. No treinamento online, em vez de descartar respostas negativas geradas pelo próprio modelo, o NFT constrói uma política implícita de negativos para modelá-las. Essa política implícita é parametrizada com o mesmo LLM positivo que buscamos otimizar com base em dados positivos, permitindo a otimização direta da política em todas as gerações dos LLMs. Realizamos experimentos em modelos de 7B e 32B em tarefas de raciocínio matemático. Os resultados mostram consistentemente que, por meio do aproveitamento adicional de feedback negativo, o NFT melhora significativamente em relação às linhas de base do SL, como o Fine-Tuning por Amostragem de Rejeição, equiparando-se ou até superando algoritmos líderes de RL, como GRPO e DAPO. Além disso, demonstramos que o NFT e o GRPO são, na verdade, equivalentes em treinamento estritamente on-policy, embora tenham origens em fundamentos teóricos completamente diferentes. Nossos experimentos e descobertas teóricas preenchem a lacuna entre os métodos de SL e RL em sistemas de aprendizado com feedback binário.
English
Reinforcement Learning (RL) has played a central role in the recent surge of
LLMs' math abilities by enabling self-improvement through binary verifier
signals. In contrast, Supervised Learning (SL) is rarely considered for such
verification-driven training, largely due to its heavy reliance on reference
answers and inability to reflect on mistakes. In this work, we challenge the
prevailing notion that self-improvement is exclusive to RL and propose
Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to
reflect on their failures and improve autonomously with no external teachers.
In online training, instead of throwing away self-generated negative answers,
NFT constructs an implicit negative policy to model them. This implicit policy
is parameterized with the same positive LLM we target to optimize on positive
data, enabling direct policy optimization on all LLMs' generations. We conduct
experiments on 7B and 32B models in math reasoning tasks. Results consistently
show that through the additional leverage of negative feedback, NFT
significantly improves over SL baselines like Rejection sampling Fine-Tuning,
matching or even surpassing leading RL algorithms like GRPO and DAPO.
Furthermore, we demonstrate that NFT and GRPO are actually equivalent in
strict-on-policy training, even though they originate from entirely different
theoretical foundations. Our experiments and theoretical findings bridge the
gap between SL and RL methods in binary-feedback learning systems.