SFT Memoriza, RL Generaliza: Um Estudo Comparativo do Modelo Base Pós-treinamentoSFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model
Post-training
O ajuste fino supervisionado (AFS) e o aprendizado por reforço (AR) são técnicas amplamente utilizadas como técnicas pós-treinamento para modelos fundamentais. No entanto, seus papéis em aprimorar as capacidades de generalização do modelo permanecem incertos. Este artigo estuda a diferença entre AFS e AR na generalização e memorização, com foco em variantes de regras baseadas em texto e variantes visuais. Apresentamos o GeneralPoints, um jogo de cartas de raciocínio aritmético, e adotamos o V-IRL, um ambiente de navegação do mundo real, para avaliar como os modelos treinados com AFS e AR generalizam para variantes não vistas em ambos os domínios textual e visual. Mostramos que o AR, especialmente quando treinado com uma recompensa baseada em resultados, generaliza em variantes baseadas em regras tanto textuais quanto visuais. Por outro lado, o AFS tende a memorizar os dados de treinamento e tem dificuldade em generalizar cenários fora da distribuição. Uma análise adicional revela que o AR melhora as capacidades de reconhecimento visual subjacentes do modelo, contribuindo para sua melhor generalização no domínio visual. Apesar da superioridade na generalização do AR, mostramos que o AFS continua sendo essencial para o treinamento eficaz de AR; o AFS estabiliza o formato de saída do modelo, permitindo que o AR subsequente alcance seus ganhos de desempenho. Essas descobertas demonstram a capacidade do AR de adquirir conhecimento generalizável em tarefas complexas e multimodais.