Sobre a Generalização do SFT: Uma Perspectiva de Aprendizado por Reforço com Retificação de Recompensa
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
August 7, 2025
Autores: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI
Resumo
Apresentamos uma melhoria simples, mas teoricamente fundamentada, para o Ajuste Fino Supervisionado (SFT) em Modelos de Linguagem de Grande Escala (LLM), abordando sua generalização limitada em comparação com o aprendizado por reforço (RL). Através de análise matemática, revelamos que os gradientes padrão do SFT codificam implicitamente uma estrutura de recompensa problemática que pode restringir severamente as capacidades de generalização do modelo. Para corrigir isso, propomos o Ajuste Fino Dinâmico (DFT), estabilizando as atualizações de gradiente para cada token ao redimensionar dinamicamente a função objetivo com a probabilidade desse token. Notavelmente, essa alteração de uma única linha de código supera significativamente o SFT padrão em vários benchmarks desafiadores e modelos base, demonstrando uma generalização substancialmente melhorada. Além disso, nossa abordagem mostra resultados competitivos em configurações de RL offline, oferecendo uma alternativa eficaz e mais simples. Este trabalho une insights teóricos e soluções práticas, avançando substancialmente o desempenho do SFT. O código estará disponível em https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised
Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited
generalization compared to reinforcement learning (RL). Through mathematical
analysis, we reveal that standard SFT gradients implicitly encode a problematic
reward structure that may severely restrict the generalization capabilities of
model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing
gradient updates for each token by dynamically rescaling the objective function
with the probability of this token. Remarkably, this single-line code change
significantly outperforms standard SFT across multiple challenging benchmarks
and base models, demonstrating greatly improved generalization. Additionally,
our approach shows competitive results in offline RL settings, offering an
effective yet simpler alternative. This work bridges theoretical insight and
practical solutions, substantially advancing SFT performance. The code will be
available at https://github.com/yongliang-wu/DFT.