Zur Verallgemeinerung von SFT: Eine Reinforcement-Learning-Perspektive mit Belohnungskorrektur

papers.abstract

Wir präsentieren eine einfache, aber theoretisch fundierte Verbesserung des Supervised Fine-Tuning (SFT) für Large Language Models (LLMs), die dessen begrenzte Generalisierungsfähigkeit im Vergleich zum Reinforcement Learning (RL) adressiert. Durch mathematische Analysen zeigen wir, dass die Standard-SFT-Gradienten implizit eine problematische Belohnungsstruktur kodieren, die die Generalisierungsfähigkeit des Modells erheblich einschränken kann. Um dies zu beheben, schlagen wir Dynamic Fine-Tuning (DFT) vor, das Gradientenupdates für jedes Token stabilisiert, indem die Zielfunktion dynamisch mit der Wahrscheinlichkeit dieses Tokens neu skaliert wird. Bemerkenswerterweise übertrifft diese einzeilige Codeänderung das Standard-SFT deutlich in mehreren anspruchsvollen Benchmarks und Basismodellen und zeigt eine deutlich verbesserte Generalisierung. Darüber hinaus erzielt unser Ansatz wettbewerbsfähige Ergebnisse in Offline-RL-Szenarien und bietet eine effektive, aber einfachere Alternative. Diese Arbeit verbindet theoretische Einsichten mit praktischen Lösungen und verbessert die SFT-Leistung erheblich. Der Code wird unter https://github.com/yongliang-wu/DFT verfügbar sein.

English

We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.

Zur Verallgemeinerung von SFT: Eine Reinforcement-Learning-Perspektive mit Belohnungskorrektur

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

papers.abstract

Support