On-Policy RL trifft auf Off-Policy Experten: Harmonisierung von überwachtem Feintuning und Reinforcement Learning durch dynamische Gewichtung
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
August 15, 2025
papers.authors: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
papers.abstract
Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) sind zwei herausragende Post-Training-Paradigmen zur Verfeinerung der Fähigkeiten und Ausrichtung des Verhaltens von Large Language Models (LLMs). Bestehende Ansätze, die SFT und RL integrieren, stehen oft vor dem Risiko, etablierte Modellmuster zu stören und Overfitting gegenüber Experten-Daten zu verursachen. Um dies zu adressieren, präsentieren wir eine neuartige Untersuchung der einheitlichen Sichtweise von SFT und RL durch die Linse von Off-Policy- versus On-Policy-Lernen. Wir schlagen CHORD vor, ein Framework für die kontrollierbare Harmonisierung von On- und Off-Policy Reinforcement Learning durch dynamische Gewichtung, das SFT nicht als separate Stufe, sondern als dynamisch gewichtetes Hilfsziel innerhalb des On-Policy-RL-Prozesses neu interpretiert. Basierend auf einer Analyse des Einflusses von Off-Policy-Experten-Daten auf sowohl ganzheitlicher als auch granularer Ebene, integrieren wir einen Dual-Control-Mechanismus in CHORD. Konkret verwendet das Framework zunächst einen globalen Koeffizienten, um den Übergang von Off-Policy-Imitation zu On-Policy-Exploration ganzheitlich zu steuern, und wendet dann eine tokenweise Gewichtungsfunktion an, die granulare Lernprozesse von Experten-Tokens ermöglicht, wodurch On-Policy-Exploration bewahrt und Störungen durch Off-Policy-Daten gemildert werden. Wir führen umfangreiche Experimente auf weit verbreiteten Benchmarks durch und liefern empirische Belege dafür, dass CHORD einen stabilen und effizienten Lernprozess erreicht. Durch die effektive Harmonisierung von Off-Policy-Experten-Daten mit On-Policy-Exploration zeigt CHORD signifikante Verbesserungen gegenüber Baseline-Methoden. Wir veröffentlichen die Implementierung unter https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord, um weitere Forschungen zu inspirieren.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.