SRFT: Um Método de Estágio Único com Ajuste Fino Supervisionado e por Reforço para Raciocínio

Resumo

Modelos de linguagem de grande escala (LLMs) têm alcançado progressos notáveis em tarefas de raciocínio, mas a integração ideal entre Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL) continua sendo um desafio fundamental. Por meio de uma análise abrangente das distribuições de tokens, dinâmicas de aprendizado e mecanismos de integração a partir de perspectivas baseadas em entropia, revelamos diferenças-chave entre esses paradigmas: o SFT induz mudanças globais de granularidade grossa nas distribuições de políticas dos LLMs, enquanto o RL realiza otimizações seletivas de granularidade fina, com a entropia servindo como um indicador crítico da eficácia do treinamento. Com base nessas observações, propomos o Ajuste Fino Supervisionado por Reforço (SRFT), um método de estágio único que unifica ambos os paradigmas de ajuste fino por meio de mecanismos de ponderação conscientes da entropia. Nossa abordagem aplica simultaneamente SFT e RL para otimizar diretamente o LLM usando demonstrações e rollouts de autoexploração, em vez de métodos sequenciais de dois estágios. Experimentos extensivos mostram que o SRFT alcança uma precisão média de 59,1%, superando métodos sem RL em 9,0% em cinco benchmarks de raciocínio matemático e em 10,9% em três benchmarks fora da distribuição.

English

Large language models (LLMs) have achieved remarkable progress in reasoning tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) remains a fundamental challenge. Through comprehensive analysis of token distributions, learning dynamics, and integration mechanisms from entropy-based perspectives, we reveal key differences between these paradigms: SFT induces coarse-grained global changes to LLM policy distributions, while RL performs fine-grained selective optimizations, with entropy serving as a critical indicator of training effectiveness. Building on these observations, we propose Supervised Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach simultaneously applies SFT and RL to directly optimize the LLM using demonstrations and self-exploration rollouts rather than through two-stage sequential methods. Extensive experiments show that SRFT achieves 59.1% average accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning benchmarks and 10.9% on three out-of-distribution benchmarks.

SRFT: Um Método de Estágio Único com Ajuste Fino Supervisionado e por Reforço para Raciocínio

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Resumo

Support