ChatPaper.aiChatPaper

Over de Generalisatie van SFT: Een Reinforcement Learning Perspectief met Beloningsrectificatie

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

August 7, 2025
Auteurs: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI

Samenvatting

We presenteren een eenvoudige maar theoretisch onderbouwde verbetering van Supervised Fine-Tuning (SFT) voor het Large Language Model (LLM), waarmee we de beperkte generalisatie in vergelijking met reinforcement learning (RL) aanpakken. Door middel van wiskundige analyse tonen we aan dat de standaard SFT-gradiënten impliciet een problematische beloningsstructuur coderen die de generalisatiemogelijkheden van het model ernstig kan beperken. Om dit te verhelpen, stellen we Dynamic Fine-Tuning (DFT) voor, waarbij de gradientupdates voor elk token worden gestabiliseerd door de doelfunctie dynamisch te herschalen met de waarschijnlijkheid van dit token. Opmerkelijk genoeg presteert deze enkele regel code aanzienlijk beter dan standaard SFT op meerdere uitdagende benchmarks en basismodellen, wat een aanzienlijk verbeterde generalisatie aantoont. Daarnaast laat onze aanpak competitieve resultaten zien in offline RL-instellingen, wat een effectief maar eenvoudiger alternatief biedt. Dit werk verbindt theoretisch inzicht met praktische oplossingen en verbetert de SFT-prestaties aanzienlijk. De code zal beschikbaar zijn op https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.
PDF13016August 8, 2025