ChatPaper.aiChatPaper

Replanteamiento de la Utilización de Trayectorias Expertas en el Post-entrenamiento de Modelos de Lenguaje Grandes

Rethinking Expert Trajectory Utilization in LLM Post-training

December 12, 2025
Autores: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI

Resumen

Si bien el entrenamiento posterior efectivo integra el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL), el mecanismo óptimo para utilizar trayectorias expertas sigue sin resolverse. Proponemos el Marco de Plasticidad-Techo para fundamentar teóricamente este panorama, descomponiendo el rendimiento en el rendimiento SFT fundamental y la plasticidad RL subsiguiente. A través de una evaluación comparativa exhaustiva, establecemos la canalización secuencial SFT-luego-RL como el estándar superior, superando los déficits de estabilidad de los enfoques sincronizados. Además, derivamos directrices de escalado precisas: (1) La transición a RL en la Subfase Estable de SFT o de Sobreajuste Leve maximiza el techo final al asegurar el rendimiento SFT fundamental sin comprometer la plasticidad RL; (2) Refutando la idea de que "Menos es Más" en el contexto del escalado SFT-luego-RL, demostramos que la Escala de Datos determina el potencial principal del entrenamiento posterior, mientras que la Dificultad de la Trayectoria actúa como un multiplicador de rendimiento; e (3) Identificamos que la Pérdida de Validación Mínima de SFT sirve como un indicador robusto para seleccionar las trayectorias expertas que maximizan el techo de rendimiento final. Nuestros hallazgos proporcionan pautas accionables para maximizar el valor extraído de las trayectorias expertas.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.
PDF53December 17, 2025