Ripensare l'Utilizzo delle Traiettorie Esperte nel Post-Addestramento degli LLM
Rethinking Expert Trajectory Utilization in LLM Post-training
December 12, 2025
Autori: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI
Abstract
Sebbene un efficace post-addestramento integri l'Affinamento Supervisionato (SFT) e l'Apprendimento per Rinforzo (RL), il meccanismo ottimale per utilizzare le traiettorie esperte rimane irrisolto. Proponiamo il Plasticity-Ceiling Framework per fornire una base teorica a questo panorama, scomponendo la performance in una performance SFT fondamentale e nella successiva plasticità RL. Attraverso un'ampia valutazione comparativa, stabiliamo la pipeline sequenziale SFT-poi-RL come standard superiore, superando i deficit di stabilità degli approcci sincronizzati. Inoltre, deriviamo linee guida precise di scalabilità: (1) La transizione all'RL durante la Sottofase Stabile o di Leggero Overfitting dell'SFT massimizza il limite finale garantendo la performance SFT fondamentale senza compromettere la plasticità RL; (2) Confutando l'idea "Less is More" nel contesto della scalabilità SFT-poi-RL, dimostriamo che la Scala dei Dati determina il potenziale primario del post-addestramento, mentre la Difficoltà della Traiettoria agisce come moltiplicatore di performance; e (3) Identificando che la Perdita di Validazione SFT Minima funge da indicatore robusto per selezionare le traiettorie esperte che massimizzano il limite di performance finale. I nostri risultati forniscono linee guida pratiche per massimizzare il valore estratto dalle traiettorie esperte.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.