UFT : Unification de l’Affinage Supervisé et par Renforcement
UFT: Unifying Supervised and Reinforcement Fine-Tuning
May 22, 2025
Auteurs: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI
Résumé
Le post-entraînement a démontré son importance pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Les principales méthodes de post-entraînement peuvent être classées en deux catégories : le réglage fin supervisé (SFT) et le réglage fin par renforcement (RFT). Le SFT est efficace et bien adapté aux petits modèles de langage, mais il peut entraîner un surajustement et limiter les capacités de raisonnement des modèles plus grands. En revanche, le RFT offre généralement une meilleure généralisation, mais dépend fortement de la robustesse du modèle de base. Pour surmonter les limites du SFT et du RFT, nous proposons le réglage fin unifié (UFT), un nouveau paradigme de post-entraînement qui unifie le SFT et le RFT en un processus unique et intégré. L'UFT permet au modèle d'explorer efficacement des solutions tout en intégrant des signaux de supervision informatifs, comblant ainsi l'écart entre la mémorisation et la réflexion inhérents aux méthodes existantes. De manière notable, l'UFT surpasse à la fois le SFT et le RFT en général, quelle que soit la taille du modèle. Par ailleurs, nous démontrons théoriquement que l'UFT brise le goulot d'étranglement exponentiel de la complexité d'échantillonnage inhérent au RFT, montrant pour la première fois qu'un entraînement unifié peut accélérer exponentiellement la convergence sur des tâches de raisonnement à long terme.
English
Post-training has demonstrated its importance in enhancing the reasoning
capabilities of large language models (LLMs). The primary post-training methods
can be categorized into supervised fine-tuning (SFT) and reinforcement
fine-tuning (RFT). SFT is efficient and well-suited for small language models,
but it may lead to overfitting and limit the reasoning abilities of larger
models. In contrast, RFT generally yields better generalization but depends
heavily on the strength of the base model. To address the limitations of SFT
and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm
that unifies SFT and RFT into a single, integrated process. UFT enables the
model to effectively explore solutions while incorporating informative
supervision signals, bridging the gap between memorizing and thinking
underlying existing methods. Notably, UFT outperforms both SFT and RFT in
general, regardless of model sizes. Furthermore, we theoretically prove that
UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for
the first time that unified training can exponentially accelerate convergence
on long-horizon reasoning tasks.Summary
AI-Generated Summary