Об обобщении SFT: перспектива обучения с подкреплением с коррекцией вознаграждения
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
August 7, 2025
Авторы: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI
Аннотация
Мы представляем простое, но теоретически обоснованное улучшение метода Настройки с Учителем (Supervised Fine-Tuning, SFT) для крупных языковых моделей (Large Language Model, LLM), устраняющее ограниченную обобщающую способность по сравнению с обучением с подкреплением (Reinforcement Learning, RL). С помощью математического анализа мы показываем, что градиенты стандартного SFT неявно кодируют проблематичную структуру вознаграждения, которая может существенно ограничивать обобщающие возможности модели. Для устранения этого недостатка мы предлагаем метод Динамической Настройки (Dynamic Fine-Tuning, DFT), стабилизирующий обновления градиентов для каждого токена путем динамического масштабирования целевой функции с учетом вероятности данного токена. Примечательно, что это изменение в одну строку кода значительно превосходит стандартный SFT на множестве сложных тестовых наборов и базовых моделей, демонстрируя существенно улучшенную обобщающую способность. Кроме того, наш подход показывает конкурентоспособные результаты в условиях оффлайн RL, предлагая эффективную и более простую альтернативу. Данная работа объединяет теоретические инсайты и практические решения, значительно повышая производительность SFT. Код будет доступен по адресу https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised
Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited
generalization compared to reinforcement learning (RL). Through mathematical
analysis, we reveal that standard SFT gradients implicitly encode a problematic
reward structure that may severely restrict the generalization capabilities of
model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing
gradient updates for each token by dynamically rescaling the objective function
with the probability of this token. Remarkably, this single-line code change
significantly outperforms standard SFT across multiple challenging benchmarks
and base models, demonstrating greatly improved generalization. Additionally,
our approach shows competitive results in offline RL settings, offering an
effective yet simpler alternative. This work bridges theoretical insight and
practical solutions, substantially advancing SFT performance. The code will be
available at https://github.com/yongliang-wu/DFT.