RL On-Policy incontra Esperti Off-Policy: Armonizzazione tra Fine-Tuning Supervisionato e Apprendimento per Rinforzo tramite Ponderazione Dinamica
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
August 15, 2025
Autori: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Abstract
Il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo (RL) sono due paradigmi di post-addestramento prominenti per affinare le capacità e allineare il comportamento dei Modelli Linguistici di Grande Scala (LLMs). Gli approcci esistenti che integrano SFT e RL spesso affrontano il rischio di perturbare i pattern consolidati del modello e indurre un overfitting sui dati esperti. Per affrontare questo problema, presentiamo una nuova indagine sulla visione unificata di SFT e RL attraverso una lente off-policy versus on-policy. Proponiamo CHORD, un framework per l'Armonizzazione Controllabile dell'Apprendimento per Rinforzo On- e Off-Policy tramite Ponderazione Dinamica, che riformula l'SFT non come una fase separata ma come un obiettivo ausiliario dinamicamente ponderato all'interno del processo RL on-policy. Basandoci su un'analisi dell'influenza dei dati esperti off-policy a livello sia olistico che granulare, incorporiamo in CHORD un meccanismo di controllo duale. Nello specifico, il framework impiega prima un coefficiente globale per guidare olisticamente la transizione dall'imitazione off-policy all'esplorazione on-policy, e poi applica una funzione di ponderazione token-wise che consente un apprendimento granulare dai token esperti, preservando l'esplorazione on-policy e mitigando le perturbazioni dai dati off-policy. Condurremo esperimenti estesi su benchmark ampiamente utilizzati, fornendo evidenze empiriche che CHORD raggiunge un processo di apprendimento stabile ed efficiente. Armonizzando efficacemente i dati esperti off-policy con l'esplorazione on-policy, CHORD dimostra miglioramenti significativi rispetto ai baseline. Rilasciamo l'implementazione su https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord per ispirare ulteriori ricerche.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.