SRFT: Un método de una sola etapa con ajuste fino supervisado y por refuerzo para el razonamiento

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en tareas de razonamiento, aunque la integración óptima del Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) sigue siendo un desafío fundamental. A través de un análisis exhaustivo de las distribuciones de tokens, la dinámica de aprendizaje y los mecanismos de integración desde perspectivas basadas en la entropía, revelamos diferencias clave entre estos paradigmas: el SFT induce cambios globales de grano grueso en las distribuciones de políticas de los LLMs, mientras que el RL realiza optimizaciones selectivas de grano fino, con la entropía como un indicador crítico de la efectividad del entrenamiento. Basándonos en estas observaciones, proponemos el Ajuste Fino Supervisado por Refuerzo (SRFT), un método de una sola etapa que unifica ambos paradigmas de ajuste fino mediante mecanismos de ponderación conscientes de la entropía. Nuestro enfoque aplica simultáneamente SFT y RL para optimizar directamente el LLM utilizando demostraciones y rollouts de autoexploración, en lugar de métodos secuenciales de dos etapas. Experimentos extensos muestran que el SRFT alcanza un 59.1% de precisión promedio, superando a los métodos sin RL en un 9.0% en cinco benchmarks de razonamiento matemático y en un 10.9% en tres benchmarks fuera de distribución.

English

Large language models (LLMs) have achieved remarkable progress in reasoning tasks, yet the optimal integration of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) remains a fundamental challenge. Through comprehensive analysis of token distributions, learning dynamics, and integration mechanisms from entropy-based perspectives, we reveal key differences between these paradigms: SFT induces coarse-grained global changes to LLM policy distributions, while RL performs fine-grained selective optimizations, with entropy serving as a critical indicator of training effectiveness. Building on these observations, we propose Supervised Reinforcement Fine-Tuning (SRFT), a single-stage method that unifies both fine-tuning paradigms through entropy-aware weighting mechanisms. Our approach simultaneously applies SFT and RL to directly optimize the LLM using demonstrations and self-exploration rollouts rather than through two-stage sequential methods. Extensive experiments show that SRFT achieves 59.1% average accuracy, outperforming zero-RL methods by 9.0% on five mathematical reasoning benchmarks and 10.9% on three out-of-distribution benchmarks.

SRFT: Un método de una sola etapa con ajuste fino supervisado y por refuerzo para el razonamiento

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Resumen

Support