ChatPaper.aiChatPaper

SFT는 기억하고, 강화학습은 일반화한다: Foundation Model의 후속 훈련에 대한 비교 연구

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

January 28, 2025
저자: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
cs.AI

초록

지도된 미세 조정(Supervised fine-tuning, SFT)과 강화 학습(Reinforcement Learning, RL)은 기본 모델에 대한 후속 훈련 기법으로 널리 사용됩니다. 그러나 이러한 기법이 모델의 일반화 능력을 향상하는 데 어떤 역할을 하는지는 여전히 명확하지 않습니다. 본 논문에서는 SFT와 RL 간의 차이를 연구하여 일반화와 기억화에 초점을 맞춘 텍스트 기반 규칙 변형 및 시각적 변형을 다루고 있습니다. 우리는 산술 추론 카드 게임인 GeneralPoints를 소개하고, 실제 세계 내비게이션 환경인 V-IRL을 채택하여 SFT와 RL로 훈련된 모델이 텍스트 및 시각적 영역에서 보이지 않는 변형에 어떻게 일반화되는지를 평가합니다. 우리는 특히 결과 기반 보상으로 훈련된 경우 RL이 규칙 기반 텍스트 및 시각적 변형 모두에 걸쳐 일반화된다는 것을 보여줍니다. 반면에 SFT는 훈련 데이터를 기억하고 분포 밖 시나리오에 대한 일반화에 어려움을 겪습니다. 추가적인 분석 결과, RL이 모델의 기본 시각적 인식 능력을 향상시키며 시각적 영역에서의 향상된 일반화에 기여한다는 것을 보여줍니다. RL의 우수한 일반화 능력에도 불구하고, 우리는 SFT가 효과적인 RL 훈련을 위해 중요하다는 것을 보여줍니다. SFT는 모델의 출력 형식을 안정화시켜 이후 RL이 성능 향상을 이룰 수 있도록 합니다. 이러한 결과는 복잡한 다중 모달 작업에서 RL이 일반화 가능한 지식을 습득하는 능력을 보여줍니다.
English
Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference between SFT and RL on generalization and memorization, focusing on text-based rule variants and visual variants. We introduce GeneralPoints, an arithmetic reasoning card game, and adopt V-IRL, a real-world navigation environment, to assess how models trained with SFT and RL generalize to unseen variants in both textual and visual domains. We show that RL, especially when trained with an outcome-based reward, generalizes across both rule-based textual and visual variants. SFT, in contrast, tends to memorize training data and struggles to generalize out-of-distribution scenarios. Further analysis reveals that RL improves the model's underlying visual recognition capabilities, contributing to its enhanced generalization in the visual domain. Despite RL's superior generalization, we show that SFT remains essential for effective RL training; SFT stabilizes the model's output format, enabling subsequent RL to achieve its performance gains. These findings demonstrates the capability of RL for acquiring generalizable knowledge in complex, multi-modal tasks.

Summary

AI-Generated Summary

PDF1206January 29, 2025