Об обобщении SFT: перспектива обучения с подкреплением с коррекцией вознаграждения

Аннотация

Мы представляем простое, но теоретически обоснованное улучшение метода Настройки с Учителем (Supervised Fine-Tuning, SFT) для крупных языковых моделей (Large Language Model, LLM), устраняющее ограниченную обобщающую способность по сравнению с обучением с подкреплением (Reinforcement Learning, RL). С помощью математического анализа мы показываем, что градиенты стандартного SFT неявно кодируют проблематичную структуру вознаграждения, которая может существенно ограничивать обобщающие возможности модели. Для устранения этого недостатка мы предлагаем метод Динамической Настройки (Dynamic Fine-Tuning, DFT), стабилизирующий обновления градиентов для каждого токена путем динамического масштабирования целевой функции с учетом вероятности данного токена. Примечательно, что это изменение в одну строку кода значительно превосходит стандартный SFT на множестве сложных тестовых наборов и базовых моделей, демонстрируя существенно улучшенную обобщающую способность. Кроме того, наш подход показывает конкурентоспособные результаты в условиях оффлайн RL, предлагая эффективную и более простую альтернативу. Данная работа объединяет теоретические инсайты и практические решения, значительно повышая производительность SFT. Код будет доступен по адресу https://github.com/yongliang-wu/DFT.

English

We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.

Об обобщении SFT: перспектива обучения с подкреплением с коррекцией вознаграждения

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Аннотация

Support