SRFT: Een eentrapsmethode met begeleide en reinforcement fine-tuning voor redeneren
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning
June 24, 2025
Auteurs: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in redeneertaken, maar de optimale integratie van Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) blijft een fundamentele uitdaging. Door middel van een uitgebreide analyse van tokenverdelingen, leer dynamieken en integratiemechanismen vanuit entropie-gebaseerde perspectieven, onthullen we belangrijke verschillen tussen deze paradigma's: SFT induceert grofkorrelige globale veranderingen in de beleidsverdelingen van LLM's, terwijl RL fijnkorrelige selectieve optimalisaties uitvoert, waarbij entropie een cruciale indicator is van de effectiviteit van de training. Op basis van deze observaties stellen we Supervised Reinforcement Fine-Tuning (SRFT) voor, een eenstapsmethode die beide fine-tuning paradigma's verenigt via entropie-bewuste wegingmechanismen. Onze benadering past SFT en RL gelijktijdig toe om het LLM direct te optimaliseren met behulp van demonstraties en zelfverkennende rollouts, in plaats van via tweestaps sequentiële methoden. Uitgebreide experimenten tonen aan dat SRFT een gemiddelde nauwkeurigheid van 59,1% bereikt, wat zero-RL-methoden met 9,0% overtreft op vijf wiskundige redeneerbenchmarks en met 10,9% op drie out-of-distribution benchmarks.
English
Large language models (LLMs) have achieved remarkable progress in reasoning
tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and
Reinforcement Learning (RL) remains a fundamental challenge. Through
comprehensive analysis of token distributions, learning dynamics, and
integration mechanisms from entropy-based perspectives, we reveal key
differences between these paradigms: SFT induces coarse-grained global changes
to LLM policy distributions, while RL performs fine-grained selective
optimizations, with entropy serving as a critical indicator of training
effectiveness. Building on these observations, we propose Supervised
Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both
fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach
simultaneously applies SFT and RL to directly optimize the LLM using
demonstrations and self-exploration rollouts rather than through two-stage
sequential methods. Extensive experiments show that SRFT achieves 59.1% average
accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning
benchmarks and 10.9% on three out-of-distribution benchmarks.