ChatPaper.aiChatPaper

SRFT : Une méthode en une seule étape avec affinage supervisé et par renforcement pour le raisonnement

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

June 24, 2025
Auteurs: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI

Résumé

Les grands modèles de langage (LLM) ont réalisé des progrès remarquables dans les tâches de raisonnement, mais l'intégration optimale du Fine-Tuning Supervisé (SFT) et de l'Apprentissage par Renforcement (RL) reste un défi fondamental. À travers une analyse approfondie des distributions de tokens, des dynamiques d'apprentissage et des mécanismes d'intégration sous l'angle de l'entropie, nous révélons des différences clés entre ces paradigmes : le SFT induit des changements globaux à granularité grossière dans les distributions de politiques des LLM, tandis que le RL effectue des optimisations sélectives à granularité fine, l'entropie servant d'indicateur critique de l'efficacité de l'entraînement. Sur la base de ces observations, nous proposons le Fine-Tuning Supervisé par Renforcement (SRFT), une méthode en une seule étape qui unifie les deux paradigmes de fine-tuning grâce à des mécanismes de pondération sensibles à l'entropie. Notre approche applique simultanément le SFT et le RL pour optimiser directement le LLM en utilisant des démonstrations et des explorations autonomes plutôt que des méthodes séquentielles en deux étapes. Des expériences approfondies montrent que le SRFT atteint une précision moyenne de 59,1%, surpassant les méthodes sans RL de 9,0% sur cinq benchmarks de raisonnement mathématique et de 10,9% sur trois benchmarks hors distribution.
English
Large language models (LLMs) have achieved remarkable progress in reasoning tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) remains a fundamental challenge. Through comprehensive analysis of token distributions, learning dynamics, and integration mechanisms from entropy-based perspectives, we reveal key differences between these paradigms: SFT induces coarse-grained global changes to LLM policy distributions, while RL performs fine-grained selective optimizations, with entropy serving as a critical indicator of training effectiveness. Building on these observations, we propose Supervised Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach simultaneously applies SFT and RL to directly optimize the LLM using demonstrations and self-exploration rollouts rather than through two-stage sequential methods. Extensive experiments show that SRFT achieves 59.1% average accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning benchmarks and 10.9% on three out-of-distribution benchmarks.
PDF91June 25, 2025