Apprendere Ciò che il Reinforcement Learning Non Può: Ottimizzazione Online Intervallata per le Domande Più Difficili
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
Autori: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
Abstract
I recenti progressi nel ragionamento dei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato che comportamenti sofisticati come la pianificazione e l'autoriflessione possono emergere attraverso l'apprendimento per rinforzo (RL). Tuttavia, nonostante questi successi, l'RL nella sua forma attuale rimane insufficiente per indurre capacità che superino i limiti del modello di base, poiché è principalmente ottimizzato sulla base delle conoscenze esistenti del modello piuttosto che facilitare l'acquisizione di nuove informazioni. Per affrontare questa limitazione, utilizziamo il fine-tuning supervisionato (SFT) per apprendere ciò che l'RL non può, il che consente l'incorporazione di nuove conoscenze e schemi di ragionamento sfruttando dati dimostrativi di alta qualità. Analizziamo le dinamiche di addestramento dell'RL e dell'SFT per il ragionamento degli LLM e scopriamo che l'RL eccelle nel mantenere e migliorare le prestazioni su domande all'interno delle capacità originali del modello, mentre l'SFT è più efficace nel consentire progressi su domande al di là dell'attuale portata del modello. Motivati dai punti di forza complementari di RL e SFT, introduciamo un nuovo approccio di addestramento, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). In ReLIFT, il modello viene principalmente addestrato utilizzando l'RL, ma quando incontra domande impegnative, vengono raccolte soluzioni di alta qualità per il fine-tuning, e il processo di addestramento alterna tra RL e fine-tuning per migliorare le capacità di ragionamento del modello. ReLIFT ottiene un miglioramento medio di oltre +5,2 punti su cinque benchmark di livello competitivo e un benchmark fuori distribuzione rispetto ad altri modelli zero-RL. Inoltre, dimostriamo che ReLIFT supera sia l'RL che l'SFT utilizzando solo il 13\% dei dati dimostrativi dettagliati, evidenziandone la scalabilità. Questi risultati forniscono prove convincenti che ReLIFT supera le limitazioni fondamentali dell'RL e sottolinea il significativo potenziale.
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.