ChatPaper.aiChatPaper

Sobre a Generalização do SFT: Uma Perspectiva de Aprendizado por Reforço com Retificação de Recompensa

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

August 7, 2025
Autores: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI

Resumo

Apresentamos uma melhoria simples, mas teoricamente fundamentada, para o Ajuste Fino Supervisionado (SFT) em Modelos de Linguagem de Grande Escala (LLM), abordando sua generalização limitada em comparação com o aprendizado por reforço (RL). Através de análise matemática, revelamos que os gradientes padrão do SFT codificam implicitamente uma estrutura de recompensa problemática que pode restringir severamente as capacidades de generalização do modelo. Para corrigir isso, propomos o Ajuste Fino Dinâmico (DFT), estabilizando as atualizações de gradiente para cada token ao redimensionar dinamicamente a função objetivo com a probabilidade desse token. Notavelmente, essa alteração de uma única linha de código supera significativamente o SFT padrão em vários benchmarks desafiadores e modelos base, demonstrando uma generalização substancialmente melhorada. Além disso, nossa abordagem mostra resultados competitivos em configurações de RL offline, oferecendo uma alternativa eficaz e mais simples. Este trabalho une insights teóricos e soluções práticas, avançando substancialmente o desempenho do SFT. O código estará disponível em https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.
PDF17521August 8, 2025