SFT mémorise, RL généralise : une étude comparative du modèle de base post-entraînementSFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model
Post-training
Le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) sont largement utilisés comme techniques post-entraînement pour les modèles de base. Cependant, leurs rôles dans l'amélioration des capacités de généralisation des modèles restent flous. Cette étude examine la différence entre le SFT et le RL en termes de généralisation et de mémorisation, en se concentrant sur des variantes de règles basées sur du texte et des variantes visuelles. Nous introduisons GeneralPoints, un jeu de cartes de raisonnement arithmétique, et utilisons V-IRL, un environnement de navigation du monde réel, pour évaluer comment les modèles entraînés avec le SFT et le RL se généralisent à des variantes inédites dans les domaines textuel et visuel. Nous montrons que le RL, surtout lorsqu'il est entraîné avec une récompense basée sur les résultats, se généralise à la fois aux variantes textuelles basées sur des règles et visuelles. En revanche, le SFT a tendance à mémoriser les données d'entraînement et éprouve des difficultés à généraliser aux scénarios hors distribution. Une analyse plus approfondie révèle que le RL améliore les capacités de reconnaissance visuelle sous-jacentes du modèle, contribuant ainsi à sa généralisation améliorée dans le domaine visuel. Malgré la meilleure généralisation du RL, nous montrons que le SFT reste essentiel pour un entraînement efficace du RL ; le SFT stabilise le format de sortie du modèle, permettant au RL ultérieur d'atteindre ses gains de performance. Ces résultats démontrent la capacité du RL à acquérir des connaissances généralisables dans des tâches complexes et multimodales.