Over de Generalisatie van SFT: Een Reinforcement Learning Perspectief met Beloningsrectificatie
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
August 7, 2025
Auteurs: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI
Samenvatting
We presenteren een eenvoudige maar theoretisch onderbouwde verbetering van Supervised Fine-Tuning (SFT) voor het Large Language Model (LLM), waarmee we de beperkte generalisatie in vergelijking met reinforcement learning (RL) aanpakken. Door middel van wiskundige analyse tonen we aan dat de standaard SFT-gradiënten impliciet een problematische beloningsstructuur coderen die de generalisatiemogelijkheden van het model ernstig kan beperken. Om dit te verhelpen, stellen we Dynamic Fine-Tuning (DFT) voor, waarbij de gradientupdates voor elk token worden gestabiliseerd door de doelfunctie dynamisch te herschalen met de waarschijnlijkheid van dit token. Opmerkelijk genoeg presteert deze enkele regel code aanzienlijk beter dan standaard SFT op meerdere uitdagende benchmarks en basismodellen, wat een aanzienlijk verbeterde generalisatie aantoont. Daarnaast laat onze aanpak competitieve resultaten zien in offline RL-instellingen, wat een effectief maar eenvoudiger alternatief biedt. Dit werk verbindt theoretisch inzicht met praktische oplossingen en verbetert de SFT-prestaties aanzienlijk. De code zal beschikbaar zijn op https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised
Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited
generalization compared to reinforcement learning (RL). Through mathematical
analysis, we reveal that standard SFT gradients implicitly encode a problematic
reward structure that may severely restrict the generalization capabilities of
model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing
gradient updates for each token by dynamically rescaling the objective function
with the probability of this token. Remarkably, this single-line code change
significantly outperforms standard SFT across multiple challenging benchmarks
and base models, demonstrating greatly improved generalization. Additionally,
our approach shows competitive results in offline RL settings, offering an
effective yet simpler alternative. This work bridges theoretical insight and
practical solutions, substantially advancing SFT performance. The code will be
available at https://github.com/yongliang-wu/DFT.