LLM 사후 훈련에서 전문가 궤적 활용 재고
Rethinking Expert Trajectory Utilization in LLM Post-training
December 12, 2025
저자: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI
초록
효과적인 사후 훈련은 지도 미세 조정(SFT)과 강화 학습(RL)을 통합하지만, 전문가 궤적을 활용하기 위한 최적의 메커니즘은 여전히 해결되지 않은 과제로 남아 있다. 본 연구는 이러한 현황을 이론적으로 정립하기 위해 소성-한계 프레임워크를 제안하며, 성능을 기초적인 SFT 성능과 후속 RL 소성으로 분해한다. 광범위한 벤치마킹을 통해 동기화 접근법의 안정성 결함을 극복하는 순차적 SFT 후 RL 파이프라인이 우수한 표준임을 입증한다. 더 나아가 다음과 같은 정밀한 확장 지침을 도출한다: (1) SFT 안정 또는 경미한 과적합 하위 단계에서 RL로 전환하면 RL 소성을 훼손하지 않으면서 기초 SFT 성능을 확보함으로써 최종 한계를 극대화한다; (2) SFT 후 RL 확장 맥락에서 '적을수록 더 좋다'는 주장을 반증하며, 데이터 규모가 사후 훈련의 주요 잠재력을 결정하는 반면 궤적 난이도는 성능 승수 역할을 함을 입증한다; (3) 최소 SFT 검증 손실이 최종 성능 한계를 극대화하는 전문가 궤적을 선택하기 위한 강력한 지표임을 확인한다. 본 연구의 결과는 전문가 궤적에서 추출하는 가치를 극대화하기 위한 실질적인 지침을 제공한다.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.