ChatPaper.aiChatPaper

Переосмысление использования экспертных траекторий при посттренинге больших языковых моделей

Rethinking Expert Trajectory Utilization in LLM Post-training

December 12, 2025
Авторы: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI

Аннотация

Хотя эффективное пост-обучение объединяет контролируемое тонкое настройку (SFT) и обучение с подкреплением (RL), оптимальный механизм использования экспертных траекторий остается нерешенным. Мы предлагаем Пластично-Потолочный Фреймворк для теоретического обоснования этой области, разлагая производительность на базовую производительность SFT и последующую пластичность RL. Путем масштабного бенчмаркинга мы устанавливаем последовательный конвейер SFT-then-RL в качестве превосходного стандарта, преодолевая проблемы стабильности синхронизированных подходов. Кроме того, мы выводим точные правила масштабирования: (1) Переход к RL на стабильной фазе SFT или фазе слабого переобучения максимизирует итоговый потолок, обеспечивая базовую производительность SFT без ущерба для пластичности RL; (2) Опровергая принцип «меньше значит больше» в контексте масштабирования SFT-then-RL, мы демонстрируем, что объем данных определяет основной потенциал пост-обучения, тогда как сложность траекторий выступает мультипликатором производительности; и (3) Устанавливая, что минимальная потеря валидации SFT служит надежным индикатором для выбора экспертных траекторий, максимизирующих итоговый потолок производительности. Наши результаты предоставляют практические рекомендации для максимизации ценности, извлекаемой из экспертных траекторий.
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.
PDF53December 17, 2025