Сопряженное согласование Q в доверительной области

Аннотация

Обучение с подкреплением вне политики для предварительно обученных потоковых политик остается сложной задачей из-за нестабильности оптимизации, возникающей вследствие многошагового процесса выборки. Недавно Q-обучение с сопряженным согласованием (QAM) решило эту проблему, переформулировав её в задачу стохастического оптимального управления без памяти (SOC) с обученным критиком. Однако QAM наследует фундаментальную хрупкость улучшения, направляемого критиком: небольшие ошибки критика усиливаются, когда критики плохо обусловлены, что часто приводит к коллапсу модели. В этой статье представлен Trust Region Q-Adjoint Matching (TRQAM) — стабильный алгоритм тонкой настройки вне политики, который адаптивно управляет KL-расхождением в пространстве траекторий с предварительно обученными потоковыми политиками посредством проекционного двойственного спуска. В частности, мы оптимизируем параметр доверительной области λ в динамике SOC и теоретически показываем, что KL-расхождение в пространстве траекторий может быть представлено в виде замкнутой функции от λ. В результате наш метод позволяет точно контролировать отклонение от предварительно обученных потоковых политик, обеспечивая стабильное обучение с подкреплением вне политики. В ходе экспериментов на 50 задачах OGBench TRQAM стабильно превосходит предыдущие разработки как в офлайн-обучении с подкреплением, так и в офлайн-онлайн обучении с подкреплением. В частности, TRQAM достигает общего уровня успеха 68% в офлайн-обучении с подкреплением, значительно улучшая сильнейший базовый показатель, составляющий 46%.

English

Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter λ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of λ. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.