Sur la généralisation de l’apprentissage supervisé par fine-tuning (SFT) : une perspective d’apprentissage par renforcement avec rectification des récompenses

papers.abstract

Nous présentons une amélioration simple mais théoriquement motivée au Fine-Tuning Supervisé (SFT) pour les Modèles de Langue à Grande Échelle (LLM), en abordant sa généralisation limitée par rapport à l'apprentissage par renforcement (RL). Grâce à une analyse mathématique, nous révélons que les gradients standard du SFT encodent implicitement une structure de récompense problématique qui peut sévèrement restreindre les capacités de généralisation du modèle. Pour y remédier, nous proposons le Fine-Tuning Dynamique (DFT), qui stabilise les mises à jour des gradients pour chaque token en redimensionnant dynamiquement la fonction objectif avec la probabilité de ce token. De manière remarquable, ce changement de code en une seule ligne surpasse significativement le SFT standard sur plusieurs benchmarks complexes et modèles de base, démontrant une bien meilleure généralisation. De plus, notre approche montre des résultats compétitifs dans les configurations de RL hors ligne, offrant une alternative efficace et plus simple. Ce travail établit un pont entre les insights théoriques et les solutions pratiques, améliorant substantiellement les performances du SFT. Le code sera disponible à l'adresse suivante : https://github.com/yongliang-wu/DFT.

English

We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.

Sur la généralisation de l’apprentissage supervisé par fine-tuning (SFT) : une perspective d’apprentissage par renforcement avec rectification des récompenses

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

papers.abstract

Support