ChatPaper.aiChatPaper

Hervorming van het gebruik van experttrajecten in post-training van grote taalmodellen

Rethinking Expert Trajectory Utilization in LLM Post-training

December 12, 2025
Auteurs: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI

Samenvatting

Hoewel effectieve naf-training Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) integreert, blijft het optimale mechanisme voor het benutten van expert-trajecten onopgelost. Wij stellen het Plasticiteit-Plafond Raamwerk voor om dit landschap te theoretiseren, waarbij we prestatie opdelen in fundamentele SFT-prestatie en de daaropvolgende RL-plasticiteit. Door middel van uitgebreide benchmarking vestigen we de sequentiële SFT-dan-RL pijplijn als de superieure standaard, die de stabiliteitstekorten van gesynchroniseerde aanpakken overwint. Verleiden wij precisie-schalingsrichtlijnen af: (1) De overgang naar RL tijdens de SFT Stabiele of Milde Overfitting Sub-fase maximaliseert het uiteindelijke plafond door de fundamentele SFT-prestatie veilig te stellen zonder de RL-plasticiteit aan te tasten; (2) Terwijl wij de stelling "Minder is Meer" weerleggen in de context van SFT-dan-RL schaling, tonen wij aan dat Data Schaal het primaire naf-trainingspotentieel bepaalt, terwijl Traject Moeilijkheidsgraad als een prestatiemultiplicator fungeert; en (3) Wij identificeren dat het Minimum SFT Validatieverlies dient als een robuuste indicator voor het selecteren van de expert-trajecten die het uiteindelijke prestatieplafond maximaliseren. Onze bevindingen bieden praktische richtlijnen om de waarde uit expert-trajecten te maximaliseren.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.
PDF74December 22, 2025