오프라인 강화 학습을 위한 효율적 확산 정책
Efficient Diffusion Policies for Offline Reinforcement Learning
May 31, 2023
저자: Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan
cs.AI
초록
오프라인 강화 학습(RL)은 오프라인 데이터셋으로부터 최적의 정책을 학습하는 것을 목표로 하며, 이때 정책의 매개변수화는 중요하지만 종종 간과됩니다. 최근, Diffusion-QL은 확산 모델을 사용하여 정책을 표현함으로써 오프라인 RL의 성능을 크게 향상시켰는데, 이 모델의 성공은 샘플링을 위해 수백 단계의 매개변수화된 마르코프 체인에 의존합니다. 그러나 Diffusion-QL은 두 가지 중요한 한계를 가지고 있습니다. 1) 학습 중 전체 마르코프 체인을 통해 순방향 및 역방향으로 진행하는 것이 계산적으로 비효율적입니다. 2) 확산 모델의 가능도가 계산 불가능하기 때문에 최대 가능도 기반 RL 알고리즘(예: 정책 경사법)과 호환되지 않습니다. 따라서 우리는 이러한 두 가지 문제를 극복하기 위해 효율적인 확산 정책(EDP)을 제안합니다. EDP는 학습 중 샘플링 체인을 실행하지 않기 위해 손상된 액션으로부터 액션을 근사적으로 구성합니다. 우리는 D4RL 벤치마크에서 광범위한 실험을 수행했습니다. 결과는 EDP가 gym-locomotion 작업에서 확산 정책 학습 시간을 5일에서 5시간으로 단축할 수 있음을 보여줍니다. 또한, EDP가 다양한 오프라인 RL 알고리즘(TD3, CRR, IQL)과 호환되며, 이전 방법들에 비해 큰 차이로 D4RL에서 새로운 최첨단 성능을 달성함을 보여줍니다. 우리의 코드는 https://github.com/sail-sg/edp에서 확인할 수 있습니다.
English
Offline reinforcement learning (RL) aims to learn optimal policies from
offline datasets, where the parameterization of policies is crucial but often
overlooked. Recently, Diffsuion-QL significantly boosts the performance of
offline RL by representing a policy with a diffusion model, whose success
relies on a parametrized Markov Chain with hundreds of steps for sampling.
However, Diffusion-QL suffers from two critical limitations. 1) It is
computationally inefficient to forward and backward through the whole Markov
chain during training. 2) It is incompatible with maximum likelihood-based RL
algorithms (e.g., policy gradient methods) as the likelihood of diffusion
models is intractable. Therefore, we propose efficient diffusion policy (EDP)
to overcome these two challenges. EDP approximately constructs actions from
corrupted ones at training to avoid running the sampling chain. We conduct
extensive experiments on the D4RL benchmark. The results show that EDP can
reduce the diffusion policy training time from 5 days to 5 hours on
gym-locomotion tasks. Moreover, we show that EDP is compatible with various
offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on
D4RL by large margins over previous methods. Our code is available at
https://github.com/sail-sg/edp.