UFT: Vereinheitlichung von überwachtem und verstärkendem Feintuning
UFT: Unifying Supervised and Reinforcement Fine-Tuning
May 22, 2025
Autoren: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI
Zusammenfassung
Das Nachtraining hat seine Bedeutung bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) unter Beweis gestellt. Die primären Methoden des Nachtrainings lassen sich in überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) und verstärkende Feinabstimmung (Reinforcement Fine-Tuning, RFT) kategorisieren. SFT ist effizient und gut geeignet für kleine Sprachmodelle, kann jedoch zu Überanpassung führen und die Denkfähigkeiten größerer Modelle einschränken. Im Gegensatz dazu führt RFT in der Regel zu einer besseren Generalisierung, hängt jedoch stark von der Stärke des Basismodells ab. Um die Grenzen von SFT und RFT zu überwinden, schlagen wir Unified Fine-Tuning (UFT) vor, ein neuartiges Nachtrainingsparadigma, das SFT und RFT in einen einzigen, integrierten Prozess vereint. UFT ermöglicht es dem Modell, effektiv Lösungen zu erkunden, während es informative Überwachungssignale einbezieht, und überbrückt so die Lücke zwischen dem Auswendiglernen und dem Denken, die den bestehenden Methoden zugrunde liegt. Bemerkenswerterweise übertrifft UFT sowohl SFT als auch RFT im Allgemeinen, unabhängig von der Modellgröße. Darüber hinaus beweisen wir theoretisch, dass UFT den inhärenten exponentiellen Komplexitätsengpass von RFT durchbricht, und zeigen erstmals, dass einheitliches Training die Konvergenz bei langfristigen Denkaufgaben exponentiell beschleunigen kann.
English
Post-training has demonstrated its importance in enhancing the reasoning
capabilities of large language models (LLMs). The primary post-training methods
can be categorized into supervised fine-tuning (SFT) and reinforcement
fine-tuning (RFT). SFT is efficient and well-suited for small language models,
but it may lead to overfitting and limit the reasoning abilities of larger
models. In contrast, RFT generally yields better generalization but depends
heavily on the strength of the base model. To address the limitations of SFT
and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm
that unifies SFT and RFT into a single, integrated process. UFT enables the
model to effectively explore solutions while incorporating informative
supervision signals, bridging the gap between memorizing and thinking
underlying existing methods. Notably, UFT outperforms both SFT and RFT in
general, regardless of model sizes. Furthermore, we theoretically prove that
UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for
the first time that unified training can exponentially accelerate convergence
on long-horizon reasoning tasks.Summary
AI-Generated Summary