Políticas de Difusión Eficientes para Aprendizaje por Refuerzo Offline

Resumen

El aprendizaje por refuerzo (RL) offline tiene como objetivo aprender políticas óptimas a partir de conjuntos de datos offline, donde la parametrización de las políticas es crucial pero a menudo pasada por alto. Recientemente, Diffusion-QL ha mejorado significativamente el rendimiento del RL offline al representar una política con un modelo de difusión, cuyo éxito depende de una cadena de Markov parametrizada con cientos de pasos para el muestreo. Sin embargo, Diffusion-QL presenta dos limitaciones críticas: 1) Es computacionalmente ineficiente avanzar y retroceder a través de toda la cadena de Markov durante el entrenamiento. 2) Es incompatible con algoritmos de RL basados en máxima verosimilitud (por ejemplo, métodos de gradiente de políticas), ya que la verosimilitud de los modelos de difusión es intratable. Por lo tanto, proponemos la política de difusión eficiente (EDP, por sus siglas en inglés) para superar estos dos desafíos. EDP construye aproximadamente acciones a partir de acciones corrompidas durante el entrenamiento para evitar ejecutar la cadena de muestreo. Realizamos experimentos extensivos en el benchmark D4RL. Los resultados muestran que EDP puede reducir el tiempo de entrenamiento de la política de difusión de 5 días a 5 horas en tareas de locomoción en gym. Además, demostramos que EDP es compatible con varios algoritmos de RL offline (TD3, CRR e IQL) y alcanza un nuevo estado del arte en D4RL, superando ampliamente a métodos anteriores. Nuestro código está disponible en https://github.com/sail-sg/edp.

English

Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.

Políticas de Difusión Eficientes para Aprendizaje por Refuerzo Offline

Efficient Diffusion Policies for Offline Reinforcement Learning

Resumen

Support