Mise en correspondance adjointe Q par région de confiance

Résumé

L'apprentissage par renforcement hors politique de politiques de flux pré-entraînées reste difficile en raison de l'instabilité de l'optimisation découlant du processus d'échantillonnage en plusieurs étapes. Récemment, l'Apprentissage Q avec Appariement Adjoint (QAM) a résolu ce problème en reformulant le problème en un problème de contrôle stochastique optimal (SOC) sans mémoire avec un critique appris. Cependant, le QAM hérite d'une fragilité fondamentale de l'amélioration guidée par le critique : de petites erreurs du critique sont amplifiées lorsque les critiques sont mal conditionnés, conduisant souvent à un effondrement du modèle. Cet article présente l'Appariement Q-Adjoint avec Région de Confiance (TRQAM), un algorithme stable de fine-tuning hors politique qui contrôle adaptativement la KL sur l'espace des trajectoires avec des politiques de flux pré-entraînées via une descente duale projetée. Plus précisément, nous optimisons le paramètre de région de confiance λ dans la dynamique SOC, et montrons théoriquement que la KL sur l'espace des trajectoires peut être représentée par une fonction de forme fermée de λ. En conséquence, notre méthode peut contrôler précisément l'écart exact par rapport aux politiques de flux pré-entraînées, réalisant un RL hors politique stable. À travers des expériences sur 50 tâches OGBench, TRQAM surpasse constamment les travaux antérieurs à la fois en RL hors ligne et en RL hors ligne vers en ligne. En particulier, TRQAM atteint un taux de réussite global de 68% en RL hors ligne, améliorant substantiellement la meilleure baseline qui est à 46%.

English

Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter λ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of λ. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.