Neubewertung der Nutzung von Experten-Trajektorien im Post-Training von LLMs
Rethinking Expert Trajectory Utilization in LLM Post-training
December 12, 2025
papers.authors: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI
papers.abstract
Während effektives Nachtraining überwachtes Feintuning (SFT) und bestärkendes Lernen (RL) integriert, bleibt der optimale Mechanismus zur Nutzung von Expertentrajektorien ungeklärt. Wir schlagen das Plasticity-Ceiling Framework vor, um dieses Landschaft theoretisch zu fundieren, indem wir die Leistung in fundamentale SFT-Leistung und nachfolgende RL-Plastizität zerlegen. Durch umfangreiche Benchmarking-Studien etablieren wir die sequenzielle SFT-dann-RL-Pipeline als überlegenen Standard, der die Stabilitätsdefizite synchronisierter Ansätze überwindet. Darüber hinaus leiten wir präzise Skalierungsrichtlinien ab: (1) Der Übergang zu RL in der SFT-Stabilen oder Leichten Overfitting-Subphase maximiert die finale Obergrenze, indem die fundamentale SFT-Leistung gesichert wird, ohne die RL-Plastizität zu beeinträchtigen; (2) Widerlegung der „Weniger-ist-Mehr“-Hypothese im Kontext der SFT-dann-RL-Skalierung zeigen wir, dass der Datenumfang das primäre Nachtraining-Potenzial bestimmt, während die Trajektorienschwierigkeit als Leistungsmultiplikator wirkt; und (3) Identifikation, dass der minimale SFT-Validierungsverlust als robuster Indikator für die Auswahl von Expertentrajektorien dient, die die finale Leistungsobergrenze maximieren. Unsere Ergebnisse liefern umsetzbare Leitlinien zur Maximierung des aus Expertentrajektorien extrahierten Werts.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.