SRFT: Eine einstufige Methode mit überwachtem und verstärkendem Feintuning für das logische Schließen
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning
June 24, 2025
Autoren: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei Denkaufgaben erzielt, doch die optimale Integration von Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bleibt eine grundlegende Herausforderung. Durch eine umfassende Analyse von Token-Verteilungen, Lern-Dynamiken und Integrationsmechanismen aus entropiebasierten Perspektiven zeigen wir wesentliche Unterschiede zwischen diesen Paradigmen auf: SFT induziert grobkörnige globale Veränderungen in den Policy-Verteilungen der LLMs, während RL feinkörnige selektive Optimierungen durchführt, wobei die Entropie als kritischer Indikator für die Trainingswirksamkeit dient. Aufbauend auf diesen Beobachtungen schlagen wir Supervised Reinforcement Fine-Tuning (SRFT) vor, eine einstufige Methode, die beide Feinabstimmungs-Paradigmen durch entropiebewusste Gewichtungsmechanismen vereint. Unser Ansatz wendet SFT und RL gleichzeitig an, um das LLM direkt durch Demonstrationen und Selbstexplorations-Rollouts zu optimieren, anstatt auf zweistufige sequenzielle Methoden zurückzugreifen. Umfangreiche Experimente zeigen, dass SRFT eine durchschnittliche Genauigkeit von 59,1 % erreicht und Zero-RL-Methoden um 9,0 % auf fünf mathematischen Denk-Benchmarks und um 10,9 % auf drei Out-of-Distribution-Benchmarks übertrifft.
English
Large language models (LLMs) have achieved remarkable progress in reasoning
tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and
Reinforcement Learning (RL) remains a fundamental challenge. Through
comprehensive analysis of token distributions, learning dynamics, and
integration mechanisms from entropy-based perspectives, we reveal key
differences between these paradigms: SFT induces coarse-grained global changes
to LLM policy distributions, while RL performs fine-grained selective
optimizations, with entropy serving as a critical indicator of training
effectiveness. Building on these observations, we propose Supervised
Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both
fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach
simultaneously applies SFT and RL to directly optimize the LLM using
demonstrations and self-exploration rollouts rather than through two-stage
sequential methods. Extensive experiments show that SRFT achieves 59.1% average
accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning
benchmarks and 10.9% on three out-of-distribution benchmarks.