ChatPaper.aiChatPaper

SRFT: Un Metodo a Singolo Stadio con Affinamento Supervisionato e di Rinforzo per il Ragionamento

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

June 24, 2025
Autori: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno compiuto progressi significativi nei compiti di ragionamento, tuttavia l'integrazione ottimale del Fine-Tuning Supervisionato (SFT) e dell'Apprendimento per Rinforzo (RL) rimane una sfida fondamentale. Attraverso un'analisi completa delle distribuzioni di token, delle dinamiche di apprendimento e dei meccanismi di integrazione da prospettive basate sull'entropia, riveliamo differenze chiave tra questi paradigmi: l'SFT induce cambiamenti globali a grana grossa nelle distribuzioni delle politiche degli LLM, mentre l'RL esegue ottimizzazioni selettive a grana fine, con l'entropia che funge da indicatore critico dell'efficacia dell'addestramento. Sulla base di queste osservazioni, proponiamo il Fine-Tuning Supervisionato con Rinforzo (SRFT), un metodo a stadio unico che unifica entrambi i paradigmi di fine-tuning attraverso meccanismi di ponderazione consapevoli dell'entropia. Il nostro approccio applica simultaneamente l'SFT e l'RL per ottimizzare direttamente l'LLM utilizzando dimostrazioni e rollouts di auto-esplorazione, anziché ricorrere a metodi sequenziali a due stadi. Esperimenti estesi dimostrano che l'SRFT raggiunge una precisione media del 59,1%, superando i metodi senza RL del 9,0% su cinque benchmark di ragionamento matematico e del 10,9% su tre benchmark fuori distribuzione.
English
Large language models (LLMs) have achieved remarkable progress in reasoning tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) remains a fundamental challenge. Through comprehensive analysis of token distributions, learning dynamics, and integration mechanisms from entropy-based perspectives, we reveal key differences between these paradigms: SFT induces coarse-grained global changes to LLM policy distributions, while RL performs fine-grained selective optimizations, with entropy serving as a critical indicator of training effectiveness. Building on these observations, we propose Supervised Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach simultaneously applies SFT and RL to directly optimize the LLM using demonstrations and self-exploration rollouts rather than through two-stage sequential methods. Extensive experiments show that SRFT achieves 59.1% average accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning benchmarks and 10.9% on three out-of-distribution benchmarks.
PDF121June 25, 2025