Políticas de Difusão Eficientes para Aprendizado por Reforço Offline

Resumo

O aprendizado por reforço offline (RL) visa aprender políticas ótimas a partir de conjuntos de dados offline, onde a parametrização das políticas é crucial, mas frequentemente negligenciada. Recentemente, o Diffusion-QL aumentou significativamente o desempenho do RL offline ao representar uma política com um modelo de difusão, cujo sucesso depende de uma Cadeia de Markov parametrizada com centenas de passos para amostragem. No entanto, o Diffusion-QL sofre de duas limitações críticas. 1) É computacionalmente ineficiente avançar e retroceder por toda a cadeia de Markov durante o treinamento. 2) É incompatível com algoritmos de RL baseados em máxima verossimilhança (por exemplo, métodos de gradiente de política), pois a verossimilhança dos modelos de difusão é intratável. Portanto, propomos a política de difusão eficiente (EDP) para superar esses dois desafios. O EDP constrói aproximadamente ações a partir de ações corrompidas durante o treinamento para evitar a execução da cadeia de amostragem. Realizamos extensos experimentos no benchmark D4RL. Os resultados mostram que o EDP pode reduzir o tempo de treinamento da política de difusão de 5 dias para 5 horas em tarefas de locomoção no gym. Além disso, mostramos que o EDP é compatível com vários algoritmos de RL offline (TD3, CRR e IQL) e alcança novos estados da arte no D4RL com grandes margens em relação aos métodos anteriores. Nosso código está disponível em https://github.com/sail-sg/edp.

English

Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.

Políticas de Difusão Eficientes para Aprendizado por Reforço Offline

Efficient Diffusion Policies for Offline Reinforcement Learning

Resumo

Support