ChatPaper.aiChatPaper

UFT: Unificatie van Begeleid en Reinforcement Fine-Tuning

UFT: Unifying Supervised and Reinforcement Fine-Tuning

May 22, 2025
Auteurs: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI

Samenvatting

Post-training heeft zijn belang aangetoond bij het verbeteren van de redeneervaardigheden van grote taalmodelen (LLM's). De belangrijkste post-trainingsmethoden kunnen worden onderverdeeld in supervised fine-tuning (SFT) en reinforcement fine-tuning (RFT). SFT is efficiënt en geschikt voor kleine taalmodelen, maar kan leiden tot overfitting en de redeneervaardigheden van grotere modellen beperken. Daarentegen levert RFT over het algemeen betere generalisatie op, maar is sterk afhankelijk van de kracht van het basismodel. Om de beperkingen van SFT en RFT aan te pakken, stellen we Unified Fine-Tuning (UFT) voor, een nieuw post-trainingsparadigma dat SFT en RFT verenigt in één geïntegreerd proces. UFT stelt het model in staat om effectief oplossingen te verkennen terwijl het informatieve supervisiesignalen incorporeert, waardoor de kloof tussen memoriseren en denken die onderliggend is aan bestaande methoden wordt overbrugd. Opmerkelijk is dat UFT over het algemeen beter presteert dan zowel SFT als RFT, ongeacht de grootte van het model. Bovendien bewijzen we theoretisch dat UFT de inherente exponentiële complexiteitsbarrière van RFT doorbreekt, en tonen we voor het eerst aan dat geünificeerde training de convergentie op langetermijnredeneertaken exponentieel kan versnellen.
English
Post-training has demonstrated its importance in enhancing the reasoning capabilities of large language models (LLMs). The primary post-training methods can be categorized into supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT is efficient and well-suited for small language models, but it may lead to overfitting and limit the reasoning abilities of larger models. In contrast, RFT generally yields better generalization but depends heavily on the strength of the base model. To address the limitations of SFT and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm that unifies SFT and RFT into a single, integrated process. UFT enables the model to effectively explore solutions while incorporating informative supervision signals, bridging the gap between memorizing and thinking underlying existing methods. Notably, UFT outperforms both SFT and RFT in general, regardless of model sizes. Furthermore, we theoretically prove that UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for the first time that unified training can exponentially accelerate convergence on long-horizon reasoning tasks.
PDF33May 27, 2025