RL basado en políticas se encuentra con expertos fuera de políticas: Armonización del ajuste fino supervisado y el aprendizaje por refuerzo mediante ponderación dinámica
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
August 15, 2025
Autores: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumen
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) y el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) son dos paradigmas destacados de posentrenamiento para refinar las capacidades y alinear el comportamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Los enfoques existentes que integran SFT y RL a menudo enfrentan el riesgo de perturbar los patrones establecidos del modelo y provocar un sobreajuste a los datos expertos. Para abordar esto, presentamos una investigación novedosa sobre la visión unificada de SFT y RL a través de una perspectiva fuera de política (off-policy) versus dentro de política (on-policy). Proponemos CHORD, un marco para la Armonización Controlable del Aprendizaje por Refuerzo dentro y fuera de Política mediante Ponderación Dinámica, que replantea el SFT no como una etapa separada, sino como un objetivo auxiliar dinámicamente ponderado dentro del proceso de RL dentro de política. Basándonos en un análisis de la influencia de los datos expertos fuera de política tanto a nivel holístico como granular, incorporamos un mecanismo de control dual en CHORD. Específicamente, el marco primero emplea un coeficiente global para guiar holísticamente la transición de la imitación fuera de política a la exploración dentro de política, y luego aplica una función de ponderación por token que permite un aprendizaje granular a partir de tokens expertos, lo que preserva la exploración dentro de política y mitiga la perturbación de los datos fuera de política. Realizamos extensos experimentos en puntos de referencia ampliamente utilizados, proporcionando evidencia empírica de que CHORD logra un proceso de aprendizaje estable y eficiente. Al armonizar efectivamente los datos expertos fuera de política con la exploración dentro de política, CHORD demuestra mejoras significativas sobre los enfoques de referencia. Publicamos la implementación en https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord para inspirar futuras investigaciones.
English
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.