SFT mémorise, RL généralise : une étude comparative du modèle de base post-entraînement

papers.abstract

Le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) sont largement utilisés comme techniques post-entraînement pour les modèles de base. Cependant, leurs rôles dans l'amélioration des capacités de généralisation des modèles restent flous. Cette étude examine la différence entre le SFT et le RL en termes de généralisation et de mémorisation, en se concentrant sur des variantes de règles basées sur du texte et des variantes visuelles. Nous introduisons GeneralPoints, un jeu de cartes de raisonnement arithmétique, et utilisons V-IRL, un environnement de navigation du monde réel, pour évaluer comment les modèles entraînés avec le SFT et le RL se généralisent à des variantes inédites dans les domaines textuel et visuel. Nous montrons que le RL, surtout lorsqu'il est entraîné avec une récompense basée sur les résultats, se généralise à la fois aux variantes textuelles basées sur des règles et visuelles. En revanche, le SFT a tendance à mémoriser les données d'entraînement et éprouve des difficultés à généraliser aux scénarios hors distribution. Une analyse plus approfondie révèle que le RL améliore les capacités de reconnaissance visuelle sous-jacentes du modèle, contribuant ainsi à sa généralisation améliorée dans le domaine visuel. Malgré la meilleure généralisation du RL, nous montrons que le SFT reste essentiel pour un entraînement efficace du RL ; le SFT stabilise le format de sortie du modèle, permettant au RL ultérieur d'atteindre ses gains de performance. Ces résultats démontrent la capacité du RL à acquérir des connaissances généralisables dans des tâches complexes et multimodales.

English

Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference between SFT and RL on generalization and memorization, focusing on text-based rule variants and visual variants. We introduce GeneralPoints, an arithmetic reasoning card game, and adopt V-IRL, a real-world navigation environment, to assess how models trained with SFT and RL generalize to unseen variants in both textual and visual domains. We show that RL, especially when trained with an outcome-based reward, generalizes across both rule-based textual and visual variants. SFT, in contrast, tends to memorize training data and struggles to generalize out-of-distribution scenarios. Further analysis reveals that RL improves the model's underlying visual recognition capabilities, contributing to its enhanced generalization in the visual domain. Despite RL's superior generalization, we show that SFT remains essential for effective RL training; SFT stabilizes the model's output format, enabling subsequent RL to achieve its performance gains. These findings demonstrates the capability of RL for acquiring generalizable knowledge in complex, multi-modal tasks.

SFT mémorise, RL généralise : une étude comparative du modèle de base post-entraînement

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

papers.abstract

Support