Leren wat Reinforcement Learning niet kan: Interleaved Online Fine-Tuning voor de Moeilijkste Vragen
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
Auteurs: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in het redeneren van grote taalmodellen (LLM's) hebben aangetoond dat geavanceerd gedrag zoals planning en zelfreflectie kan ontstaan door middel van versterkend leren (RL). Ondanks deze successen blijft RL in zijn huidige vorm echter onvoldoende om capaciteiten te ontwikkelen die de beperkingen van het basismodel overstijgen, omdat het voornamelijk is geoptimaliseerd op basis van de bestaande kennis van het model in plaats van het verwerven van nieuwe informatie te faciliteren. Om deze beperking aan te pakken, gebruiken we supervised fine-tuning (SFT) om te leren wat RL niet kan, waardoor het mogelijk wordt nieuwe kennis en redeneerpatronen te integreren door gebruik te maken van hoogwaardige demonstratiedata. We analyseren de trainingsdynamiek van RL en SFT voor LLM-redenering en ontdekken dat RL uitblinkt in het behouden en verbeteren van prestaties op vragen binnen de oorspronkelijke capaciteiten van het model, terwijl SFT effectiever is in het mogelijk maken van vooruitgang op vragen die buiten het huidige bereik van het model liggen. Gemotiveerd door de complementaire sterke punten van RL en SFT, introduceren we een nieuwe trainingsaanpak, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). In ReLIFT wordt het model voornamelijk getraind met RL, maar wanneer het uitdagende vragen tegenkomt, worden hoogwaardige oplossingen verzameld voor fine-tuning, en wisselt het trainingsproces af tussen RL en fine-tuning om de redeneervaardigheden van het model te verbeteren. ReLIFT behaalt een gemiddelde verbetering van meer dan +5,2 punten over vijf competitieniveau benchmarks en één out-of-distribution benchmark in vergelijking met andere zero-RL-modellen. Bovendien tonen we aan dat ReLIFT zowel RL als SFT overtreft terwijl het slechts 13\% van de gedetailleerde demonstratiedata gebruikt, wat de schaalbaarheid ervan benadrukt. Deze resultaten leveren overtuigend bewijs dat ReLIFT de fundamentele beperkingen van RL overwint en onderstreept het aanzienlijke potentieel.
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.