RL On-Policy Encontra Especialistas Off-Policy: Harmonizando Ajuste Fino Supervisionado e Aprendizado por Reforço via Ponderação Dinâmica
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
August 15, 2025
Autores: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumo
O Ajuste Fino Supervisionado (SFT) e o Aprendizado por Reforço (RL) são dois paradigmas proeminentes de pós-treinamento para refinar as capacidades e alinhar o comportamento de Modelos de Linguagem de Grande Escala (LLMs). As abordagens existentes que integram SFT e RL frequentemente enfrentam o risco de perturbar padrões estabelecidos do modelo e induzir sobreajuste aos dados de especialistas. Para abordar isso, apresentamos uma nova investigação sobre a visão unificada de SFT e RL através de uma lente off-policy versus on-policy. Propomos o CHORD, um framework para a Harmonização Controlável de Aprendizado por Reforço On-Policy e Off-Policy via Ponderação Dinâmica, que reformula o SFT não como uma etapa separada, mas como um objetivo auxiliar ponderado dinamicamente dentro do processo de RL on-policy. Com base em uma análise da influência dos dados de especialistas off-policy em níveis holísticos e granulares, incorporamos um mecanismo de controle duplo no CHORD. Especificamente, o framework primeiro emprega um coeficiente global para guiar holisticamente a transição da imitação off-policy para a exploração on-policy, e então aplica uma função de ponderação por token que permite o aprendizado granular a partir de tokens de especialistas, preservando a exploração on-policy e mitigando a perturbação dos dados off-policy. Realizamos extensos experimentos em benchmarks amplamente utilizados, fornecendo evidências empíricas de que o CHORD alcança um processo de aprendizado estável e eficiente. Ao harmonizar efetivamente os dados de especialistas off-policy com a exploração on-policy, o CHORD demonstra melhorias significativas em relação às baselines. Disponibilizamos a implementação em https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord para inspirar pesquisas futuras.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.