UFT: Unificatie van Begeleid en Reinforcement Fine-Tuning
UFT: Unifying Supervised and Reinforcement Fine-Tuning
May 22, 2025
Auteurs: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI
Samenvatting
Post-training heeft zijn belang aangetoond bij het verbeteren van de redeneervaardigheden van grote taalmodelen (LLM's). De belangrijkste post-trainingsmethoden kunnen worden onderverdeeld in supervised fine-tuning (SFT) en reinforcement fine-tuning (RFT). SFT is efficiënt en geschikt voor kleine taalmodelen, maar kan leiden tot overfitting en de redeneervaardigheden van grotere modellen beperken. Daarentegen levert RFT over het algemeen betere generalisatie op, maar is sterk afhankelijk van de kracht van het basismodel. Om de beperkingen van SFT en RFT aan te pakken, stellen we Unified Fine-Tuning (UFT) voor, een nieuw post-trainingsparadigma dat SFT en RFT verenigt in één geïntegreerd proces. UFT stelt het model in staat om effectief oplossingen te verkennen terwijl het informatieve supervisiesignalen incorporeert, waardoor de kloof tussen memoriseren en denken die onderliggend is aan bestaande methoden wordt overbrugd. Opmerkelijk is dat UFT over het algemeen beter presteert dan zowel SFT als RFT, ongeacht de grootte van het model. Bovendien bewijzen we theoretisch dat UFT de inherente exponentiële complexiteitsbarrière van RFT doorbreekt, en tonen we voor het eerst aan dat geünificeerde training de convergentie op langetermijnredeneertaken exponentieel kan versnellen.
English
Post-training has demonstrated its importance in enhancing the reasoning
capabilities of large language models (LLMs). The primary post-training methods
can be categorized into supervised fine-tuning (SFT) and reinforcement
fine-tuning (RFT). SFT is efficient and well-suited for small language models,
but it may lead to overfitting and limit the reasoning abilities of larger
models. In contrast, RFT generally yields better generalization but depends
heavily on the strength of the base model. To address the limitations of SFT
and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm
that unifies SFT and RFT into a single, integrated process. UFT enables the
model to effectively explore solutions while incorporating informative
supervision signals, bridging the gap between memorizing and thinking
underlying existing methods. Notably, UFT outperforms both SFT and RFT in
general, regardless of model sizes. Furthermore, we theoretically prove that
UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for
the first time that unified training can exponentially accelerate convergence
on long-horizon reasoning tasks.