ChatPaper.aiChatPaper

Ajuste Supervisado versus Aprendizaje por Refuerzo: Un Estudio de Métodos de Post-entrenamiento para Modelos de Lenguaje a Gran Escala

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

March 14, 2026
Autores: Haitao Jiang, Wenbo Zhang, Jiarui Yao, Hengrui Cai, Sheng Wang, Rui Song
cs.AI

Resumen

El modelo de lenguaje grande (LLM) preentrenado exhibe amplias capacidades; sin embargo, para tareas o dominios específicos, el logro de una mayor precisión y un razonamiento más confiable generalmente depende del posentrenamiento mediante el ajuste fino supervisado (SFT) o el aprendizaje por refuerzo (RL). Aunque a menudo se tratan como metodologías distintas, desarrollos teóricos y empíricos recientes demuestran que el SFT y el RL están estrechamente conectados. Este estudio presenta una perspectiva integral y unificada sobre el posentrenamiento de LLM con SFT y RL. Primero, ofrecemos una descripción detallada de ambas técnicas, examinando sus objetivos, estructuras algorítmicas y requisitos de datos. Luego, analizamos sistemáticamente su interacción, destacando marcos que integran SFT y RL, pipelines de entrenamiento híbridos y métodos que aprovechan sus fortalezas complementarias. Basándonos en un conjunto representativo de estudios de aplicación recientes de 2023 a 2025, identificamos tendencias emergentes, caracterizamos el rápido cambio hacia paradigmas de posentrenamiento híbridos y destilamos conclusiones clave que aclaran cuándo y por qué cada método es más efectivo. Al sintetizar perspectivas teóricas, metodologías prácticas y evidencia empírica, este estudio establece una comprensión coherente del SFT y el RL dentro de un marco unificado y delinea direcciones prometedoras para futuras investigaciones en el posentrenamiento de LLM escalable, eficiente y generalizable.
English
Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.
PDF92March 18, 2026