UFT: Unificazione del Fine-Tuning Supervisionato e del Reinforcement Learning
UFT: Unifying Supervised and Reinforcement Fine-Tuning
May 22, 2025
Autori: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI
Abstract
Il post-training ha dimostrato la sua importanza nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). I principali metodi di post-training possono essere categorizzati in fine-tuning supervisionato (SFT) e fine-tuning con rinforzo (RFT). L'SFT è efficiente e ben adatto per modelli linguistici di piccole dimensioni, ma può portare a overfitting e limitare le capacità di ragionamento dei modelli più grandi. Al contrario, l'RFT generalmente offre una migliore generalizzazione, ma dipende fortemente dalla forza del modello di base. Per affrontare i limiti di SFT e RFT, proponiamo il Unified Fine-Tuning (UFT), un nuovo paradigma di post-training che unisce SFT e RFT in un unico processo integrato. L'UFT consente al modello di esplorare efficacemente le soluzioni incorporando segnali di supervisione informativi, colmando il divario tra memorizzazione e pensiero sottostante ai metodi esistenti. In particolare, l'UFT supera sia SFT che RFT in generale, indipendentemente dalle dimensioni del modello. Inoltre, dimostriamo teoricamente che l'UFT supera il collo di bottiglia intrinseco della complessità esponenziale del campionamento dell'RFT, mostrando per la prima volta che l'addestramento unificato può accelerare esponenzialmente la convergenza su compiti di ragionamento a lungo termine.
English
Post-training has demonstrated its importance in enhancing the reasoning
capabilities of large language models (LLMs). The primary post-training methods
can be categorized into supervised fine-tuning (SFT) and reinforcement
fine-tuning (RFT). SFT is efficient and well-suited for small language models,
but it may lead to overfitting and limit the reasoning abilities of larger
models. In contrast, RFT generally yields better generalization but depends
heavily on the strength of the base model. To address the limitations of SFT
and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm
that unifies SFT and RFT into a single, integrated process. UFT enables the
model to effectively explore solutions while incorporating informative
supervision signals, bridging the gap between memorizing and thinking
underlying existing methods. Notably, UFT outperforms both SFT and RFT in
general, regardless of model sizes. Furthermore, we theoretically prove that
UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for
the first time that unified training can exponentially accelerate convergence
on long-horizon reasoning tasks.