Ajuste Fino Supervisionado versus Aprendizado por Reforço: Um Estudo sobre Métodos de Pós-Treinamento para Modelos de Linguagem de Grande Porte

Resumo

O modelo de linguagem de grande escala (LLM) pré-treinado exibe capacidades amplas, contudo, para tarefas ou domínios específicos, a obtenção de maior precisão e raciocínio mais confiável geralmente depende do pós-treinamento através do Ajuste Fino Supervisionado (SFT) ou Aprendizado por Reforço (RL). Embora frequentemente tratadas como metodologias distintas, desenvolvimentos teóricos e empíricos recentes demonstram que SFT e RL estão estreitamente conectados. Este estudo apresenta uma perspectiva abrangente e unificada sobre o pós-treinamento de LLMs com SFT e RL. Primeiro, fornecemos uma visão detalhada de ambas as técnicas, examinando seus objetivos, estruturas algorítmicas e requisitos de dados. Em seguida, analisamos sistematicamente sua interação, destacando estruturas que integram SFT e RL, pipelines de treinamento híbridos e métodos que aproveitam seus pontos fortes complementares. Com base em um conjunto representativo de estudos de aplicação recentes de 2023 a 2025, identificamos tendências emergentes, caracterizamos a rápida transição para paradigmas de pós-treinamento híbridos e destilamos conclusões-chave que esclarecem quando e por que cada método é mais eficaz. Ao sintetizar percepções teóricas, metodologias práticas e evidências empíricas, este estudo estabelece uma compreensão coerente de SFT e RL dentro de uma estrutura unificada e delineia direções promissoras para pesquisas futuras em pós-treinamento de LLMs escalável, eficiente e generalizável.

English

Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.

Ajuste Fino Supervisionado versus Aprendizado por Reforço: Um Estudo sobre Métodos de Pós-Treinamento para Modelos de Linguagem de Grande Porte

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Resumo

Support