SRFT: Um Método de Estágio Único com Ajuste Fino Supervisionado e por Reforço para Raciocínio
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning
June 24, 2025
Autores: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm alcançado progressos notáveis em tarefas de raciocínio, mas a integração ideal entre Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL) continua sendo um desafio fundamental. Por meio de uma análise abrangente das distribuições de tokens, dinâmicas de aprendizado e mecanismos de integração a partir de perspectivas baseadas em entropia, revelamos diferenças-chave entre esses paradigmas: o SFT induz mudanças globais de granularidade grossa nas distribuições de políticas dos LLMs, enquanto o RL realiza otimizações seletivas de granularidade fina, com a entropia servindo como um indicador crítico da eficácia do treinamento. Com base nessas observações, propomos o Ajuste Fino Supervisionado por Reforço (SRFT), um método de estágio único que unifica ambos os paradigmas de ajuste fino por meio de mecanismos de ponderação conscientes da entropia. Nossa abordagem aplica simultaneamente SFT e RL para otimizar diretamente o LLM usando demonstrações e rollouts de autoexploração, em vez de métodos sequenciais de dois estágios. Experimentos extensivos mostram que o SRFT alcança uma precisão média de 59,1%, superando métodos sem RL em 9,0% em cinco benchmarks de raciocínio matemático e em 10,9% em três benchmarks fora da distribuição.
English
Large language models (LLMs) have achieved remarkable progress in reasoning
tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and
Reinforcement Learning (RL) remains a fundamental challenge. Through
comprehensive analysis of token distributions, learning dynamics, and
integration mechanisms from entropy-based perspectives, we reveal key
differences between these paradigms: SFT induces coarse-grained global changes
to LLM policy distributions, while RL performs fine-grained selective
optimizations, with entropy serving as a critical indicator of training
effectiveness. Building on these observations, we propose Supervised
Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both
fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach
simultaneously applies SFT and RL to directly optimize the LLM using
demonstrations and self-exploration rollouts rather than through two-stage
sequential methods. Extensive experiments show that SRFT achieves 59.1% average
accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning
benchmarks and 10.9% on three out-of-distribution benchmarks.