On-Policy RL Ontmoet Off-Policy Experts: Afstemming van Supervised Fine-Tuning en Reinforcement Learning via Dynamische Gewichtstoekenning
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
August 15, 2025
Auteurs: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Samenvatting
Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) zijn twee prominente post-trainingsparadigma's voor het verfijnen van de capaciteiten en het afstemmen van het gedrag van Large Language Models (LLMs). Bestaande benaderingen die SFT en RL integreren, lopen vaak het risico om gevestigde modelpatronen te verstoren en overfitting aan expertdata te veroorzaken. Om dit aan te pakken, presenteren we een nieuw onderzoek naar de verenigde visie van SFT en RL door een off-policy versus on-policy lens. We stellen CHORD voor, een framework voor de Controleerbare Harmonisatie van On- en Off-Policy Reinforcement Learning via Dynamische Weging, dat SFT niet als een aparte fase beschouwt, maar als een dynamisch gewogen hulpdoelstelling binnen het on-policy RL-proces. Op basis van een analyse van de invloed van off-policy expertdata op zowel holistisch als gedetailleerd niveau, incorporeren we een dual-control mechanisme in CHORD. Specifiek gebruikt het framework eerst een globale coëfficiënt om de overgang van off-policy imitatie naar on-policy exploratie holistisch te begeleiden, en past vervolgens een token-gewijze wegingstoepassing toe die gedetailleerd leren van experttokens mogelijk maakt, wat on-policy exploratie behoudt en verstoring door off-policy data vermindert. We voeren uitgebreide experimenten uit op veelgebruikte benchmarks, wat empirisch bewijs levert dat CHORD een stabiel en efficiënt leerproces bereikt. Door off-policy expertdata effectief te harmoniseren met on-policy exploratie, toont CHORD significante verbeteringen ten opzichte van baseline-methoden. We maken de implementatie beschikbaar op https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord om verder onderzoek te inspireren.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.