ChatPaper.aiChatPaper

Обучение с подкреплением на основе текущей политики встречается с экспертами, использующими внешнюю политику: гармонизация тонкой настройки с учителем и обучения с подкреплением через динамическое взвешивание

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

August 15, 2025
Авторы: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

Аннотация

Обучение с учителем (Supervised Fine-Tuning, SFT) и обучение с подкреплением (Reinforcement Learning, RL) являются двумя ключевыми подходами для улучшения возможностей и согласования поведения крупных языковых моделей (Large Language Models, LLMs). Существующие методы, объединяющие SFT и RL, часто сталкиваются с риском нарушения установленных паттернов модели и переобучения на экспертных данных. Для решения этой проблемы мы представляем новое исследование, рассматривающее SFT и RL через призму off-policy и on-policy подходов. Мы предлагаем CHORD — фреймворк для контролируемой гармонизации on-policy и off-policy обучения с подкреплением с использованием динамического взвешивания, который переосмысливает SFT не как отдельный этап, а как динамически взвешенную вспомогательную цель в рамках on-policy RL процесса. На основе анализа влияния off-policy экспертных данных как на глобальном, так и на детальном уровнях, мы включаем в CHORD механизм двойного контроля. В частности, фреймворк сначала использует глобальный коэффициент для целостного перехода от off-policy имитации к on-policy исследованию, а затем применяет потокенную функцию взвешивания, которая позволяет детально обучаться на экспертных токенах, сохраняя on-policy исследование и смягчая влияние off-policy данных. Мы проводим обширные эксперименты на широко используемых бенчмарках, предоставляя эмпирические доказательства того, что CHORD обеспечивает стабильный и эффективный процесс обучения. Благодаря эффективной гармонизации off-policy экспертных данных с on-policy исследованием, CHORD демонстрирует значительные улучшения по сравнению с базовыми методами. Мы публикуем реализацию на https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord для вдохновения дальнейших исследований.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two prominent post-training paradigms for refining the capabilities and aligning the behavior of Large Language Models (LLMs). Existing approaches that integrate SFT and RL often face the risk of disrupting established model patterns and inducing overfitting to expert data. To address this, we present a novel investigation into the unified view of SFT and RL through an off-policy versus on-policy lens. We propose CHORD, a framework for the Controllable Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic Weighting, which reframes SFT not as a separate stage but as a dynamically weighted auxiliary objective within the on-policy RL process. Based on an analysis of off-policy expert data's influence at both holistic and granular levels, we incorporate a dual-control mechanism in CHORD. Specifically, the framework first employs a global coefficient to holistically guide the transition from off-policy imitation to on-policy exploration, and then applies a token-wise weighting function that enables granular learning from expert tokens, which preserves on-policy exploration and mitigates disruption from off-policy data. We conduct extensive experiments on widely used benchmarks, providing empirical evidence that CHORD achieves a stable and efficient learning process. By effectively harmonizing off-policy expert data with on-policy exploration, CHORD demonstrates significant improvements over baselines. We release the implementation at https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to inspire further research.
PDF65August 21, 2025