ChatPaper.aiChatPaper

Repenser l'utilisation des trajectoires expertes dans le post-entraînement des LLM

Rethinking Expert Trajectory Utilization in LLM Post-training

December 12, 2025
papers.authors: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI

papers.abstract

Bien que l’apprentissage efficace après entraînement intègre le Fine-Tuning Supervisé (SFT) et l’Apprentissage par Renforcement (RL), le mécanisme optimal pour exploiter les trajectoires expertes reste une question ouverte. Nous proposons le Cadre Plasticité-Plafond pour théoriser ce paysage, en décomposant la performance en une performance SFT fondamentale et la plasticité RL subséquente. Par un benchmarking approfondi, nous établissons le pipeline séquentiel SFT-puis-RL comme la norme supérieure, surmontant les déficits de stabilité des approches synchronisées. De plus, nous dérivons des directives précises de mise à l’échelle : (1) La transition vers le RL durant la Sous-phase Stable ou de Léger Sur-apprentissage du SFT maximise le plafond final en sécurisant la performance SFT de base sans compromettre la plasticité RL ; (2) Réfutant l’idée que « Moins, c’est Mieux » dans le contexte de la mise à l’échelle SFT-puis-RL, nous démontrons que l’Échelle des Données détermine le potentiel principal après entraînement, tandis que la Difficulté des Trajectoires agit comme un multiplicateur de performance ; et (3) Identifiant que la Perte de Validation Minimale en SFT sert d’indicateur robuste pour sélectionner les trajectoires expertes qui maximisent le plafond de performance final. Nos résultats fournissent des directives pratiques pour maximiser la valeur extraite des trajectoires expertes.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.
PDF53December 17, 2025