Efficiënt Diffusiebeleid voor Offline Reinforcement Learning

Samenvatting

Offline reinforcement learning (RL) heeft als doel optimale beleidsregels te leren uit offline datasets, waarbij de parametrisering van beleidsregels cruciaal is maar vaak over het hoofd wordt gezien. Onlangs heeft Diffsuion-QL de prestaties van offline RL aanzienlijk verbeterd door een beleidsregel te representeren met een diffusiemodel, waarvan het succes berust op een geparametriseerde Markov-keten met honderden stappen voor sampling. Diffusion-QL heeft echter twee kritieke beperkingen. 1) Het is rekenkundig inefficiënt om tijdens de training door de hele Markov-keten heen te gaan, zowel voorwaarts als achterwaarts. 2) Het is niet compatibel met RL-algoritmen die gebaseerd zijn op maximale waarschijnlijkheid (bijvoorbeeld beleidsgradiëntmethoden), omdat de waarschijnlijkheid van diffusiemodellen onberekenbaar is. Daarom stellen we efficient diffusion policy (EDP) voor om deze twee uitdagingen te overwinnen. EDP construeert tijdens de training acties bij benadering uit gecorrumpeerde acties om het uitvoeren van de samplingketen te vermijden. We voeren uitgebreide experimenten uit op de D4RL-benchmark. De resultaten laten zien dat EDP de trainingstijd van diffusiebeleid kan terugbrengen van 5 dagen naar 5 uur op gym-locomotietaken. Bovendien tonen we aan dat EDP compatibel is met verschillende offline RL-algoritmen (TD3, CRR en IQL) en nieuwe state-of-the-art prestaties bereikt op D4RL met grote marges ten opzichte van eerdere methoden. Onze code is beschikbaar op https://github.com/sail-sg/edp.

English

Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.

Efficiënt Diffusiebeleid voor Offline Reinforcement Learning

Efficient Diffusion Policies for Offline Reinforcement Learning

Samenvatting

Support