SFT запоминает, RL обобщает: Сравнительное исследование фундаментальной модели после обучения.SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model
Post-training
Надзорное дообучение (SFT) и обучение с подкреплением (RL) широко используются как техники послеобучения для базовых моделей. Однако их роли в улучшении обобщающих способностей модели остаются неясными. В данной работе изучается разница между SFT и RL в области обобщения и запоминания, с акцентом на текстовые и визуальные варианты правил. Мы представляем GeneralPoints, карточную игру с арифметическим рассуждением, и используем V-IRL, среду реального мира для навигации, чтобы оценить, как модели, обученные с помощью SFT и RL, обобщаются на невидимые варианты как в текстовой, так и визуальной областях. Мы показываем, что RL, особенно когда обучен с использованием награды на основе результата, обобщается как на основе правил текстовых, так и визуальных вариантов. SFT, напротив, склонно запоминать обучающие данные и испытывает трудности с обобщением в сценариях вне распределения. Дальнейший анализ показывает, что RL улучшает базовые возможности визуального распознавания модели, способствуя ее улучшенному обобщению в визуальной области. Несмотря на превосходство RL в обобщении, мы показываем, что SFT остается необходимым для эффективного обучения RL; SFT стабилизирует формат вывода модели, позволяя последующему RL достичь улучшения производительности. Эти результаты демонстрируют способность RL к приобретению обобщаемых знаний в сложных мультимодальных задачах.