SFTは記憶し、RLは一般化する:ファウンデーションモデルの比較研究
トレーニング後SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model
Post-training
教師付きファインチューニング(SFT)と強化学習(RL)は、基盤モデルの後処理技術として広く使用されています。ただし、これらがモデルの汎化能力を向上させる役割は依然として不明です。本論文では、SFTとRLの一般化と記憶への影響の違いを研究し、テキストベースのルール変種とビジュアル変種に焦点を当てます。私たちは、算術推論カードゲームであるGeneralPointsを導入し、実世界のナビゲーション環境であるV-IRLを採用して、SFTとRLで訓練されたモデルがテキストとビジュアルの両ドメインで未知の変種にどのように一般化するかを評価します。RLは、特に結果ベースの報酬で訓練された場合、ルールベースのテキストとビジュアルの変種の両方にわたって一般化することを示します。これに対して、SFTは訓練データを記憶し、分布外シナリオでの一般化が困難です。さらなる分析から、RLがモデルの基礎となるビジュアル認識能力を向上させ、視覚ドメインでの一般化を促進することが明らかになります。RLの優れた一般化能力にもかかわらず、SFTは効果的なRLトレーニングには不可欠であることを示します。SFTはモデルの出力形式を安定させ、その後のRLがパフォーマンスを向上させることを可能にします。これらの知見は、複雑なマルチモーダルタスクで一般化可能な知識を獲得するためのRLの能力を示しています。