SRFT: Eine einstufige Methode mit überwachtem und verstärkendem Feintuning für das logische Schließen

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei Denkaufgaben erzielt, doch die optimale Integration von Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bleibt eine grundlegende Herausforderung. Durch eine umfassende Analyse von Token-Verteilungen, Lern-Dynamiken und Integrationsmechanismen aus entropiebasierten Perspektiven zeigen wir wesentliche Unterschiede zwischen diesen Paradigmen auf: SFT induziert grobkörnige globale Veränderungen in den Policy-Verteilungen der LLMs, während RL feinkörnige selektive Optimierungen durchführt, wobei die Entropie als kritischer Indikator für die Trainingswirksamkeit dient. Aufbauend auf diesen Beobachtungen schlagen wir Supervised Reinforcement Fine-Tuning (SRFT) vor, eine einstufige Methode, die beide Feinabstimmungs-Paradigmen durch entropiebewusste Gewichtungsmechanismen vereint. Unser Ansatz wendet SFT und RL gleichzeitig an, um das LLM direkt durch Demonstrationen und Selbstexplorations-Rollouts zu optimieren, anstatt auf zweistufige sequenzielle Methoden zurückzugreifen. Umfangreiche Experimente zeigen, dass SRFT eine durchschnittliche Genauigkeit von 59,1 % erreicht und Zero-RL-Methoden um 9,0 % auf fünf mathematischen Denk-Benchmarks und um 10,9 % auf drei Out-of-Distribution-Benchmarks übertrifft.

English

Large language models (LLMs) have achieved remarkable progress in reasoning tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) remains a fundamental challenge. Through comprehensive analysis of token distributions, learning dynamics, and integration mechanisms from entropy-based perspectives, we reveal key differences between these paradigms: SFT induces coarse-grained global changes to LLM policy distributions, while RL performs fine-grained selective optimizations, with entropy serving as a critical indicator of training effectiveness. Building on these observations, we propose Supervised Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach simultaneously applies SFT and RL to directly optimize the LLM using demonstrations and self-exploration rollouts rather than through two-stage sequential methods. Extensive experiments show that SRFT achieves 59.1% average accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning benchmarks and 10.9% on three out-of-distribution benchmarks.

SRFT: Eine einstufige Methode mit überwachtem und verstärkendem Feintuning für das logische Schließen

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

papers.abstract

Support