Эффективные диффузионные политики для обучения с подкреплением на оффлайн-данных
Efficient Diffusion Policies for Offline Reinforcement Learning
May 31, 2023
Авторы: Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan
cs.AI
Аннотация
Оффлайн-обучение с подкреплением (RL) направлено на изучение оптимальных политик на основе оффлайн-датасетов, где параметризация политик играет ключевую роль, но часто остается недооцененной. Недавно метод Diffusion-QL значительно улучшил производительность оффлайн-RL, представляя политику с помощью диффузионной модели, успех которой основан на параметризованной цепи Маркова с сотнями шагов для выборки. Однако Diffusion-QL имеет два существенных ограничения. 1) Вычислительная неэффективность при прямом и обратном проходе через всю цепь Маркова во время обучения. 2) Несовместимость с алгоритмами RL, основанными на максимизации правдоподобия (например, методами градиента политики), так как правдоподобие диффузионных моделей является вычислительно сложным. Поэтому мы предлагаем эффективную диффузионную политику (EDP) для преодоления этих двух проблем. EDP приближенно конструирует действия из искаженных на этапе обучения, чтобы избежать запуска цепи выборки. Мы провели обширные эксперименты на бенчмарке D4RL. Результаты показывают, что EDP может сократить время обучения диффузионной политики с 5 дней до 5 часов на задачах gym-locomotion. Более того, мы демонстрируем, что EDP совместима с различными алгоритмами оффлайн-RL (TD3, CRR и IQL) и достигает нового уровня state-of-the-art на D4RL, значительно превосходя предыдущие методы. Наш код доступен по адресу https://github.com/sail-sg/edp.
English
Offline reinforcement learning (RL) aims to learn optimal policies from
offline datasets, where the parameterization of policies is crucial but often
overlooked. Recently, Diffsuion-QL significantly boosts the performance of
offline RL by representing a policy with a diffusion model, whose success
relies on a parametrized Markov Chain with hundreds of steps for sampling.
However, Diffusion-QL suffers from two critical limitations. 1) It is
computationally inefficient to forward and backward through the whole Markov
chain during training. 2) It is incompatible with maximum likelihood-based RL
algorithms (e.g., policy gradient methods) as the likelihood of diffusion
models is intractable. Therefore, we propose efficient diffusion policy (EDP)
to overcome these two challenges. EDP approximately constructs actions from
corrupted ones at training to avoid running the sampling chain. We conduct
extensive experiments on the D4RL benchmark. The results show that EDP can
reduce the diffusion policy training time from 5 days to 5 hours on
gym-locomotion tasks. Moreover, we show that EDP is compatible with various
offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on
D4RL by large margins over previous methods. Our code is available at
https://github.com/sail-sg/edp.