SRFT: Un método de una sola etapa con ajuste fino supervisado y por refuerzo para el razonamiento
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning
June 24, 2025
Autores: Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en tareas de razonamiento, aunque la integración óptima del Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) sigue siendo un desafío fundamental. A través de un análisis exhaustivo de las distribuciones de tokens, la dinámica de aprendizaje y los mecanismos de integración desde perspectivas basadas en la entropía, revelamos diferencias clave entre estos paradigmas: el SFT induce cambios globales de grano grueso en las distribuciones de políticas de los LLMs, mientras que el RL realiza optimizaciones selectivas de grano fino, con la entropía como un indicador crítico de la efectividad del entrenamiento. Basándonos en estas observaciones, proponemos el Ajuste Fino Supervisado por Refuerzo (SRFT), un método de una sola etapa que unifica ambos paradigmas de ajuste fino mediante mecanismos de ponderación conscientes de la entropía. Nuestro enfoque aplica simultáneamente SFT y RL para optimizar directamente el LLM utilizando demostraciones y rollouts de autoexploración, en lugar de métodos secuenciales de dos etapas. Experimentos extensos muestran que el SRFT alcanza un 59.1% de precisión promedio, superando a los métodos sin RL en un 9.0% en cinco benchmarks de razonamiento matemático y en un 10.9% en tres benchmarks fuera de distribución.
English
Large language models (LLMs) have achieved remarkable progress in reasoning
tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and
Reinforcement Learning (RL) remains a fundamental challenge. Through
comprehensive analysis of token distributions, learning dynamics, and
integration mechanisms from entropy-based perspectives, we reveal key
differences between these paradigms: SFT induces coarse-grained global changes
to LLM policy distributions, while RL performs fine-grained selective
optimizations, with entropy serving as a critical indicator of training
effectiveness. Building on these observations, we propose Supervised
Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both
fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach
simultaneously applies SFT and RL to directly optimize the LLM using
demonstrations and self-exploration rollouts rather than through two-stage
sequential methods. Extensive experiments show that SRFT achieves 59.1% average
accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning
benchmarks and 10.9% on three out-of-distribution benchmarks.