Apprendre ce que l'apprentissage par renforcement ne peut pas : Réglage fin en ligne entrelacé pour les questions les plus difficiles
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
Auteurs: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
Résumé
Les récents progrès dans le raisonnement des modèles de langage de grande taille (LLM) ont montré que des comportements sophistiqués tels que la planification et l’auto-réflexion peuvent émerger grâce à l’apprentissage par renforcement (RL). Cependant, malgré ces succès, le RL dans sa forme actuelle reste insuffisant pour induire des capacités dépassant les limites du modèle de base, car il est principalement optimisé sur la base des connaissances existantes du modèle plutôt que de faciliter l’acquisition de nouvelles informations. Pour remédier à cette limitation, nous utilisons le fine-tuning supervisé (SFT) pour apprendre ce que le RL ne peut pas, ce qui permet d’intégrer de nouvelles connaissances et schémas de raisonnement en exploitant des données de démonstration de haute qualité. Nous analysons la dynamique d’entraînement du RL et du SFT pour le raisonnement des LLM et constatons que le RL excelle à maintenir et améliorer les performances sur des questions relevant des capacités initiales du modèle, tandis que le SFT est plus efficace pour permettre des progrès sur des questions dépassant le champ actuel du modèle. Motivés par les forces complémentaires du RL et du SFT, nous introduisons une nouvelle approche d’entraînement, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). Dans ReLIFT, le modèle est principalement entraîné à l’aide du RL, mais lorsqu’il rencontre des questions difficiles, des solutions de haute qualité sont collectées pour le fine-tuning, et le processus d’entraînement alterne entre RL et fine-tuning pour améliorer les capacités de raisonnement du modèle. ReLIFT obtient une amélioration moyenne de plus de +5,2 points sur cinq benchmarks de niveau compétition et un benchmark hors distribution par rapport à d’autres modèles sans RL. De plus, nous démontrons que ReLIFT surpasse à la fois le RL et le SFT tout en utilisant seulement 13 % des données de démonstration détaillées, mettant en évidence sa scalabilité. Ces résultats fournissent des preuves convaincantes que ReLIFT surmonte les limitations fondamentales du RL et soulignent son potentiel significatif.
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.