ChatPaper.aiChatPaper

SRFT: Een eentrapsmethode met begeleide en reinforcement fine-tuning voor redeneren

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

June 24, 2025
Auteurs: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in redeneertaken, maar de optimale integratie van Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) blijft een fundamentele uitdaging. Door middel van een uitgebreide analyse van tokenverdelingen, leer dynamieken en integratiemechanismen vanuit entropie-gebaseerde perspectieven, onthullen we belangrijke verschillen tussen deze paradigma's: SFT induceert grofkorrelige globale veranderingen in de beleidsverdelingen van LLM's, terwijl RL fijnkorrelige selectieve optimalisaties uitvoert, waarbij entropie een cruciale indicator is van de effectiviteit van de training. Op basis van deze observaties stellen we Supervised Reinforcement Fine-Tuning (SRFT) voor, een eenstapsmethode die beide fine-tuning paradigma's verenigt via entropie-bewuste wegingmechanismen. Onze benadering past SFT en RL gelijktijdig toe om het LLM direct te optimaliseren met behulp van demonstraties en zelfverkennende rollouts, in plaats van via tweestaps sequentiële methoden. Uitgebreide experimenten tonen aan dat SRFT een gemiddelde nauwkeurigheid van 59,1% bereikt, wat zero-RL-methoden met 9,0% overtreft op vijf wiskundige redeneerbenchmarks en met 10,9% op drie out-of-distribution benchmarks.
English
Large language models (LLMs) have achieved remarkable progress in reasoning tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) remains a fundamental challenge. Through comprehensive analysis of token distributions, learning dynamics, and integration mechanisms from entropy-based perspectives, we reveal key differences between these paradigms: SFT induces coarse-grained global changes to LLM policy distributions, while RL performs fine-grained selective optimizations, with entropy serving as a critical indicator of training effectiveness. Building on these observations, we propose Supervised Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach simultaneously applies SFT and RL to directly optimize the LLM using demonstrations and self-exploration rollouts rather than through two-stage sequential methods. Extensive experiments show that SRFT achieves 59.1% average accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning benchmarks and 10.9% on three out-of-distribution benchmarks.
PDF121June 25, 2025