Politiche di Diffusione Efficienti per l'Apprendimento per Rinforzo Offline

Abstract

L'apprendimento per rinforzo offline (offline RL) mira a imparare politiche ottimali da dataset offline, dove la parametrizzazione delle politiche è cruciale ma spesso trascurata. Recentemente, Diffusion-QL ha migliorato significativamente le prestazioni dell'offline RL rappresentando una politica con un modello di diffusione, il cui successo si basa su una catena di Markov parametrizzata con centinaia di passaggi per il campionamento. Tuttavia, Diffusion-QL soffre di due limitazioni critiche. 1) È computazionalmente inefficiente propagare in avanti e indietro l'intera catena di Markov durante l'addestramento. 2) È incompatibile con gli algoritmi di RL basati sulla massima verosimiglianza (ad esempio, i metodi del gradiente della politica) poiché la verosimiglianza dei modelli di diffusione è intrattabile. Pertanto, proponiamo una politica di diffusione efficiente (EDP) per superare queste due sfide. EDP costruisce approssimativamente le azioni da quelle corrotte durante l'addestramento per evitare di eseguire la catena di campionamento. Abbiamo condotto esperimenti estesi sul benchmark D4RL. I risultati mostrano che EDP può ridurre il tempo di addestramento della politica di diffusione da 5 giorni a 5 ore sui task di locomozione in gym. Inoltre, dimostriamo che EDP è compatibile con vari algoritmi di offline RL (TD3, CRR e IQL) e raggiunge nuovi stati dell'arte su D4RL con margini significativi rispetto ai metodi precedenti. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/edp.

English

Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.

Politiche di Diffusione Efficienti per l'Apprendimento per Rinforzo Offline

Efficient Diffusion Policies for Offline Reinforcement Learning

Abstract

Support