Lernen, was Reinforcement Learning nicht kann: Interleaved Online-Fine-Tuning für die schwierigsten Fragen
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
Autoren: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
Zusammenfassung
Jüngste Fortschritte im Bereich des logischen Denkens großer Sprachmodelle (LLMs) haben gezeigt, dass anspruchsvolle Verhaltensweisen wie Planung und Selbstreflexion durch Reinforcement Learning (RL) entstehen können. Trotz dieser Erfolge bleibt RL in seiner derzeitigen Form jedoch unzureichend, um Fähigkeiten zu induzieren, die die Grenzen des Basismodells überschreiten, da es primär auf der Grundlage des bestehenden Wissens des Modells optimiert wird, anstatt den Erwerb neuer Informationen zu ermöglichen. Um diese Einschränkung zu überwinden, setzen wir überwachtes Fein-Tuning (Supervised Fine-Tuning, SFT) ein, um das zu lernen, was RL nicht kann. Dies ermöglicht die Integration neuen Wissens und neuer Denkmuster durch die Nutzung hochwertiger Demonstrationsdaten. Wir analysieren die Trainingsdynamik von RL und SFT für das logische Denken von LLMs und stellen fest, dass RL besonders gut darin ist, die Leistung bei Fragen innerhalb der ursprünglichen Fähigkeiten des Modells zu erhalten und zu verbessern, während SFT effektiver darin ist, Fortschritte bei Fragen zu ermöglichen, die über den aktuellen Umfang des Modells hinausgehen. Motiviert durch die komplementären Stärken von RL und SFT, führen wir einen neuartigen Trainingsansatz ein, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). Bei ReLIFT wird das Modell hauptsächlich mit RL trainiert, aber wenn es auf herausfordernde Fragen stößt, werden hochwertige Lösungen für das Fein-Tuning gesammelt, und der Trainingsprozess wechselt zwischen RL und Fein-Tuning, um die Denkfähigkeiten des Modells zu verbessern. ReLIFT erzielt eine durchschnittliche Verbesserung von über +5,2 Punkten über fünf wettbewerbsorientierte Benchmarks und einen Out-of-Distribution-Benchmark im Vergleich zu anderen Zero-RL-Modellen. Darüber hinaus zeigen wir, dass ReLIFT sowohl RL als auch SFT übertrifft, während es nur 13\% der detaillierten Demonstrationsdaten verwendet, was seine Skalierbarkeit unterstreicht. Diese Ergebnisse liefern überzeugende Beweise dafür, dass ReLIFT die grundlegenden Einschränkungen von RL überwindet und das erhebliche Potenzial dieses Ansatzes verdeutlicht.
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.