L'apprentissage par renforcement on-policy rencontre les experts off-policy : Harmonisation du fine-tuning supervisé et de l'apprentissage par renforcement via une pondération dynamique
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
August 15, 2025
papers.authors: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
papers.abstract
Le Fine-Tuning Supervisé (SFT) et l'Apprentissage par Renforcement (RL) sont deux paradigmes post-entraînement majeurs pour affiner les capacités et aligner le comportement des Modèles de Langage à Grande Échelle (LLMs). Les approches existantes qui intègrent SFT et RL sont souvent confrontées au risque de perturber les modèles établis et de provoquer un surajustement aux données expertes. Pour résoudre ce problème, nous présentons une nouvelle investigation de la vision unifiée de SFT et RL à travers une perspective off-policy versus on-policy. Nous proposons CHORD, un cadre pour l'Harmonisation Contrôlée de l'Apprentissage par Renforcement On- et Off-Policy via une Pondération Dynamique, qui redéfinit le SFT non pas comme une étape séparée, mais comme un objectif auxiliaire dynamiquement pondéré au sein du processus RL on-policy. Sur la base d'une analyse de l'influence des données expertes off-policy à la fois aux niveaux holistique et granulaire, nous intégrons un mécanisme de double contrôle dans CHORD. Plus précisément, le cadre utilise d'abord un coefficient global pour guider de manière holistique la transition de l'imitation off-policy à l'exploration on-policy, puis applique une fonction de pondération token par token qui permet un apprentissage granulaire à partir des tokens experts, tout en préservant l'exploration on-policy et en atténuant les perturbations des données off-policy. Nous menons des expériences approfondies sur des benchmarks largement utilisés, fournissant des preuves empiriques que CHORD permet un processus d'apprentissage stable et efficace. En harmonisant efficacement les données expertes off-policy avec l'exploration on-policy, CHORD démontre des améliorations significatives par rapport aux méthodes de référence. Nous mettons à disposition l'implémentation à l'adresse https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord pour inspirer des recherches ultérieures.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.