대규모 언어 모델의 사후 학습 방법 비교 연구: 지도 미세 조정 대 강화 학습
Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models
March 14, 2026
저자: Haitao Jiang, Wenbo Zhang, Jiarui Yao, Hengrui Cai, Sheng Wang, Rui Song
cs.AI
초록
사전 훈련된 대규모 언어 모델(LLM)은 광범위한 능력을 보여주지만, 특정 작업이나 도메인에서 더 높은 정확도와 신뢰할 수 있는 추론을 달성하기 위해서는 일반적으로 지도 미세 조정(SFT) 또는 강화 학습(RL)을 통한 사후 훈련이 필요합니다. 비록 종종 별개의 방법론으로 취급되지만, 최근의 이론적 및 실증적 발전은 SFT와 RL이 밀접하게 연결되어 있음을 보여줍니다. 본 연구는 SFT와 RL을 이용한 LLM 사후 훈련에 대한 포괄적이고 통합된 관점을 제시합니다. 먼저 두 기술의 목표, 알고리즘 구조, 데이터 요구 사항을 검토하며 심층적으로 개요를 제공합니다. 다음으로 SFT와 RL을 통합하는 프레임워크, 하이브리드 훈련 파이프라인, 그리고 상호 보완적 강점을 활용하는 방법을 부각시키며 이들의 상호작용을 체계적으로 분석합니다. 2023년부터 2025년까지의 대표적인 최신 응용 연구 사례를 바탕으로 부상하는 트렌드를 확인하고, 하이브리드 사후 훈련 패러다임으로의 급속한 전환을 특징짓으며, 각 방법이 언제, 왜 가장 효과적인지 명확히 하는 핵심 시사점을 도출합니다. 이론적 통찰, 실용적 방법론, 실증적 증거를 종합함으로써, 본 연구는 통합된 프레임워크 내에서 SFT와 RL에 대한 일관된 이해를 정립하고, 확장 가능하고 효율적이며 일반화 가능한 LLM 사후 훈련을 위한 향후 연구의 유망한 방향을 제시합니다.
English
Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.