Politiques de diffusion efficaces pour l'apprentissage par renforcement hors ligne

Résumé

L'apprentissage par renforcement hors ligne (offline RL) vise à apprendre des politiques optimales à partir de jeux de données hors ligne, où la paramétrisation des politiques est cruciale mais souvent négligée. Récemment, Diffusion-QL a considérablement amélioré les performances de l'offline RL en représentant une politique à l'aide d'un modèle de diffusion, dont le succès repose sur une chaîne de Markov paramétrée avec des centaines d'étapes pour l'échantillonnage. Cependant, Diffusion-QL souffre de deux limitations critiques. 1) Il est inefficace sur le plan computationnel de parcourir toute la chaîne de Markov en avant et en arrière pendant l'entraînement. 2) Il est incompatible avec les algorithmes de RL basés sur la vraisemblance maximale (par exemple, les méthodes de gradient de politique), car la vraisemblance des modèles de diffusion est difficile à calculer. Par conséquent, nous proposons une politique de diffusion efficace (EDP) pour surmonter ces deux défis. EDP construit approximativement des actions à partir d'actions corrompues pendant l'entraînement pour éviter d'exécuter la chaîne d'échantillonnage. Nous menons des expériences approfondies sur le benchmark D4RL. Les résultats montrent qu'EDP peut réduire le temps d'entraînement de la politique de diffusion de 5 jours à 5 heures sur les tâches de locomotion dans gym. De plus, nous montrons qu'EDP est compatible avec divers algorithmes d'offline RL (TD3, CRR et IQL) et atteint de nouveaux records sur D4RL, surpassant largement les méthodes précédentes. Notre code est disponible à l'adresse https://github.com/sail-sg/edp.

English

Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.

Politiques de diffusion efficaces pour l'apprentissage par renforcement hors ligne

Efficient Diffusion Policies for Offline Reinforcement Learning

Résumé

Support