Sulla Generalizzazione dell'SFT: Una Prospettiva di Apprendimento per Rinforzo con Rettifica della Ricompensa
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
August 7, 2025
Autori: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI
Abstract
Presentiamo un miglioramento semplice ma teoricamente motivato al Fine-Tuning Supervisionato (SFT) per i Modelli Linguistici di Grande Scala (LLM), affrontando la sua limitata generalizzazione rispetto all'apprendimento per rinforzo (RL). Attraverso un'analisi matematica, riveliamo che i gradienti standard dell'SFT codificano implicitamente una struttura di ricompensa problematica che potrebbe limitare severamente le capacità di generalizzazione del modello. Per correggere ciò, proponiamo il Dynamic Fine-Tuning (DFT), stabilizzando gli aggiornamenti del gradiente per ogni token ridimensionando dinamicamente la funzione obiettivo con la probabilità di tale token. Notevolmente, questo cambiamento di una singola riga di codice supera significativamente l'SFT standard su molteplici benchmark impegnativi e modelli di base, dimostrando una generalizzazione notevolmente migliorata. Inoltre, il nostro approccio mostra risultati competitivi in contesti di RL offline, offrendo un'alternativa efficace ma più semplice. Questo lavoro collega intuizioni teoriche e soluzioni pratiche, avanzando sostanzialmente le prestazioni dell'SFT. Il codice sarà disponibile su https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised
Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited
generalization compared to reinforcement learning (RL). Through mathematical
analysis, we reveal that standard SFT gradients implicitly encode a problematic
reward structure that may severely restrict the generalization capabilities of
model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing
gradient updates for each token by dynamically rescaling the objective function
with the probability of this token. Remarkably, this single-line code change
significantly outperforms standard SFT across multiple challenging benchmarks
and base models, demonstrating greatly improved generalization. Additionally,
our approach shows competitive results in offline RL settings, offering an
effective yet simpler alternative. This work bridges theoretical insight and
practical solutions, substantially advancing SFT performance. The code will be
available at https://github.com/yongliang-wu/DFT.