Zur Verallgemeinerung von SFT: Eine Reinforcement-Learning-Perspektive mit Belohnungskorrektur
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
August 7, 2025
papers.authors: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI
papers.abstract
Wir präsentieren eine einfache, aber theoretisch fundierte Verbesserung des Supervised Fine-Tuning (SFT) für Large Language Models (LLMs), die dessen begrenzte Generalisierungsfähigkeit im Vergleich zum Reinforcement Learning (RL) adressiert. Durch mathematische Analysen zeigen wir, dass die Standard-SFT-Gradienten implizit eine problematische Belohnungsstruktur kodieren, die die Generalisierungsfähigkeit des Modells erheblich einschränken kann. Um dies zu beheben, schlagen wir Dynamic Fine-Tuning (DFT) vor, das Gradientenupdates für jedes Token stabilisiert, indem die Zielfunktion dynamisch mit der Wahrscheinlichkeit dieses Tokens neu skaliert wird. Bemerkenswerterweise übertrifft diese einzeilige Codeänderung das Standard-SFT deutlich in mehreren anspruchsvollen Benchmarks und Basismodellen und zeigt eine deutlich verbesserte Generalisierung. Darüber hinaus erzielt unser Ansatz wettbewerbsfähige Ergebnisse in Offline-RL-Szenarien und bietet eine effektive, aber einfachere Alternative. Diese Arbeit verbindet theoretische Einsichten mit praktischen Lösungen und verbessert die SFT-Leistung erheblich. Der Code wird unter https://github.com/yongliang-wu/DFT verfügbar sein.
English
We present a simple yet theoretically motivated improvement to Supervised
Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited
generalization compared to reinforcement learning (RL). Through mathematical
analysis, we reveal that standard SFT gradients implicitly encode a problematic
reward structure that may severely restrict the generalization capabilities of
model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing
gradient updates for each token by dynamically rescaling the objective function
with the probability of this token. Remarkably, this single-line code change
significantly outperforms standard SFT across multiple challenging benchmarks
and base models, demonstrating greatly improved generalization. Additionally,
our approach shows competitive results in offline RL settings, offering an
effective yet simpler alternative. This work bridges theoretical insight and
practical solutions, substantially advancing SFT performance. The code will be
available at https://github.com/yongliang-wu/DFT.