Effiziente Diffusionsstrategien für Offline Reinforcement Learning

Zusammenfassung

Offline Reinforcement Learning (RL) zielt darauf ab, optimale Strategien aus Offline-Datensätzen zu lernen, wobei die Parametrisierung der Strategien entscheidend, aber oft vernachlässigt wird. Kürzlich hat Diffusion-QL die Leistung von Offline RL erheblich gesteigert, indem es eine Strategie mit einem Diffusionsmodell darstellt, dessen Erfolg auf einer parametrisierten Markov-Kette mit Hunderten von Schritten für das Sampling beruht. Allerdings leidet Diffusion-QL unter zwei kritischen Einschränkungen. 1) Es ist rechenineffizient, während des Trainings die gesamte Markov-Kette vorwärts und rückwärts zu durchlaufen. 2) Es ist nicht kompatibel mit Maximum-Likelihood-basierten RL-Algorithmen (z.B. Policy-Gradient-Methoden), da die Likelihood von Diffusionsmodellen nicht handhabbar ist. Daher schlagen wir Efficient Diffusion Policy (EDP) vor, um diese beiden Herausforderungen zu bewältigen. EDP konstruiert während des Trainings näherungsweise Aktionen aus korrumpierten Aktionen, um das Durchlaufen der Sampling-Kette zu vermeiden. Wir führen umfangreiche Experimente auf dem D4RL-Benchmark durch. Die Ergebnisse zeigen, dass EDP die Trainingszeit der Diffusionsstrategie von 5 Tagen auf 5 Stunden bei Gym-Locomotion-Aufgaben reduzieren kann. Darüber hinaus zeigen wir, dass EDP mit verschiedenen Offline-RL-Algorithmen (TD3, CRR und IQL) kompatibel ist und auf D4RL mit großem Abstand neue State-of-the-Art-Ergebnisse erzielt. Unser Code ist verfügbar unter https://github.com/sail-sg/edp.

English

Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.

Effiziente Diffusionsstrategien für Offline Reinforcement Learning

Efficient Diffusion Policies for Offline Reinforcement Learning

Zusammenfassung

Support