Emparejamiento Adjunto de la Región de Confianza Q

Resumen

El aprendizaje por refuerzo fuera de la política de políticas de flujo preentrenadas sigue siendo un desafío debido a la inestabilidad de la optimización que surge del proceso de muestreo de múltiples pasos. Recientemente, el aprendizaje Q con Ajuste Adjunto (QAM, por sus siglas en inglés) abordó este problema reformulándolo como un problema de control óptimo estocástico (SOC, por sus siglas en inglés) sin memoria con un crítico aprendido. Sin embargo, QAM hereda una fragilidad fundamental de la mejora guiada por críticos: los pequeños errores del crítico se amplifican cuando los críticos están mal condicionados, lo que a menudo conduce al colapso del modelo. Este artículo presenta Trust Region Q-Adjoint Matching (TRQAM), un algoritmo estable de ajuste fino fuera de la política que controla adaptativamente la divergencia KL del espacio de trayectorias con políticas de flujo preentrenadas mediante descenso dual proyectado. Específicamente, optimizamos el parámetro de región de confianza λ en la dinámica SOC, y demostramos teóricamente que la divergencia KL del espacio de trayectorias puede representarse mediante una función de forma cerrada de λ. Como resultado, nuestro método puede controlar con precisión la desviación exacta de las políticas de flujo preentrenadas, logrando un aprendizaje por refuerzo fuera de la política estable. Mediante experimentos en 50 tareas de OGBench, TRQAM supera consistentemente a los trabajos anteriores tanto en aprendizaje por refuerzo fuera de línea como en aprendizaje por refuerzo de fuera de línea a en línea. En particular, TRQAM alcanza una tasa de éxito general del 68% en aprendizaje por refuerzo fuera de línea, mejorando sustancialmente la línea base más fuerte con un 46%.

English

Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter λ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of λ. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.