SFT Memoriza, RL Generaliza: Um Estudo Comparativo do Modelo Base Pós-treinamento
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
January 28, 2025
Autores: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
cs.AI
Resumo
O ajuste fino supervisionado (AFS) e o aprendizado por reforço (AR) são técnicas amplamente utilizadas como técnicas pós-treinamento para modelos fundamentais. No entanto, seus papéis em aprimorar as capacidades de generalização do modelo permanecem incertos. Este artigo estuda a diferença entre AFS e AR na generalização e memorização, com foco em variantes de regras baseadas em texto e variantes visuais. Apresentamos o GeneralPoints, um jogo de cartas de raciocínio aritmético, e adotamos o V-IRL, um ambiente de navegação do mundo real, para avaliar como os modelos treinados com AFS e AR generalizam para variantes não vistas em ambos os domínios textual e visual. Mostramos que o AR, especialmente quando treinado com uma recompensa baseada em resultados, generaliza em variantes baseadas em regras tanto textuais quanto visuais. Por outro lado, o AFS tende a memorizar os dados de treinamento e tem dificuldade em generalizar cenários fora da distribuição. Uma análise adicional revela que o AR melhora as capacidades de reconhecimento visual subjacentes do modelo, contribuindo para sua melhor generalização no domínio visual. Apesar da superioridade na generalização do AR, mostramos que o AFS continua sendo essencial para o treinamento eficaz de AR; o AFS estabiliza o formato de saída do modelo, permitindo que o AR subsequente alcance seus ganhos de desempenho. Essas descobertas demonstram a capacidade do AR de adquirir conhecimento generalizável em tarefas complexas e multimodais.
English
Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used
post-training techniques for foundation models. However, their roles in
enhancing model generalization capabilities remain unclear. This paper studies
the difference between SFT and RL on generalization and memorization, focusing
on text-based rule variants and visual variants. We introduce GeneralPoints, an
arithmetic reasoning card game, and adopt V-IRL, a real-world navigation
environment, to assess how models trained with SFT and RL generalize to unseen
variants in both textual and visual domains. We show that RL, especially when
trained with an outcome-based reward, generalizes across both rule-based
textual and visual variants. SFT, in contrast, tends to memorize training data
and struggles to generalize out-of-distribution scenarios. Further analysis
reveals that RL improves the model's underlying visual recognition
capabilities, contributing to its enhanced generalization in the visual domain.
Despite RL's superior generalization, we show that SFT remains essential for
effective RL training; SFT stabilizes the model's output format, enabling
subsequent RL to achieve its performance gains. These findings demonstrates the
capability of RL for acquiring generalizable knowledge in complex, multi-modal
tasks.Summary
AI-Generated Summary