Aprendendo o que o Aprendizado por Reforço Não Consegue: Ajuste Fino Online Intercalado para as Perguntas Mais Difíceis
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
Autores: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
Resumo
Avanços recentes no raciocínio de modelos de linguagem de grande escala (LLMs) demonstraram que comportamentos sofisticados, como planejamento e autorreflexão, podem emergir por meio de aprendizado por reforço (RL). No entanto, apesar desses sucessos, o RL em sua forma atual permanece insuficiente para induzir capacidades que superem as limitações do modelo base, uma vez que é otimizado principalmente com base no conhecimento existente do modelo, em vez de facilitar a aquisição de novas informações. Para abordar essa limitação, empregamos ajuste fino supervisionado (SFT) para aprender o que o RL não consegue, o que permite a incorporação de novos conhecimentos e padrões de raciocínio ao aproveitar dados de demonstração de alta qualidade. Analisamos a dinâmica de treinamento do RL e do SFT para o raciocínio de LLMs e descobrimos que o RL se destaca em manter e melhorar o desempenho em questões dentro das capacidades originais do modelo, enquanto o SFT é mais eficaz em permitir progresso em questões além do escopo atual do modelo. Motivados pelos pontos fortes complementares do RL e do SFT, introduzimos uma nova abordagem de treinamento, o ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). No ReLIFT, o modelo é treinado principalmente usando RL, mas, ao encontrar questões desafiadoras, soluções de alta qualidade são coletadas para ajuste fino, e o processo de treinamento alterna entre RL e ajuste fino para aprimorar as habilidades de raciocínio do modelo. O ReLIFT alcança uma melhoria média de mais de +5,2 pontos em cinco benchmarks de nível competitivo e um benchmark fora da distribuição, em comparação com outros modelos sem RL. Além disso, demonstramos que o ReLIFT supera tanto o RL quanto o SFT enquanto utiliza apenas 13% dos dados detalhados de demonstração, destacando sua escalabilidade. Esses resultados fornecem evidências convincentes de que o ReLIFT supera as limitações fundamentais do RL e ressalta seu potencial significativo.
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.