SFT mémorise, RL généralise : une étude comparative du modèle de base post-entraînement
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
January 28, 2025
Auteurs: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
cs.AI
Résumé
Le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) sont largement utilisés comme techniques post-entraînement pour les modèles de base. Cependant, leurs rôles dans l'amélioration des capacités de généralisation des modèles restent flous. Cette étude examine la différence entre le SFT et le RL en termes de généralisation et de mémorisation, en se concentrant sur des variantes de règles basées sur du texte et des variantes visuelles. Nous introduisons GeneralPoints, un jeu de cartes de raisonnement arithmétique, et utilisons V-IRL, un environnement de navigation du monde réel, pour évaluer comment les modèles entraînés avec le SFT et le RL se généralisent à des variantes inédites dans les domaines textuel et visuel. Nous montrons que le RL, surtout lorsqu'il est entraîné avec une récompense basée sur les résultats, se généralise à la fois aux variantes textuelles basées sur des règles et visuelles. En revanche, le SFT a tendance à mémoriser les données d'entraînement et éprouve des difficultés à généraliser aux scénarios hors distribution. Une analyse plus approfondie révèle que le RL améliore les capacités de reconnaissance visuelle sous-jacentes du modèle, contribuant ainsi à sa généralisation améliorée dans le domaine visuel. Malgré la meilleure généralisation du RL, nous montrons que le SFT reste essentiel pour un entraînement efficace du RL ; le SFT stabilise le format de sortie du modèle, permettant au RL ultérieur d'atteindre ses gains de performance. Ces résultats démontrent la capacité du RL à acquérir des connaissances généralisables dans des tâches complexes et multimodales.
English
Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used
post-training techniques for foundation models. However, their roles in
enhancing model generalization capabilities remain unclear. This paper studies
the difference between SFT and RL on generalization and memorization, focusing
on text-based rule variants and visual variants. We introduce GeneralPoints, an
arithmetic reasoning card game, and adopt V-IRL, a real-world navigation
environment, to assess how models trained with SFT and RL generalize to unseen
variants in both textual and visual domains. We show that RL, especially when
trained with an outcome-based reward, generalizes across both rule-based
textual and visual variants. SFT, in contrast, tends to memorize training data
and struggles to generalize out-of-distribution scenarios. Further analysis
reveals that RL improves the model's underlying visual recognition
capabilities, contributing to its enhanced generalization in the visual domain.
Despite RL's superior generalization, we show that SFT remains essential for
effective RL training; SFT stabilizes the model's output format, enabling
subsequent RL to achieve its performance gains. These findings demonstrates the
capability of RL for acquiring generalizable knowledge in complex, multi-modal
tasks.Summary
AI-Generated Summary