Représentations débiasées basées sur modèle pour un contrôle continu efficace en échantillons

Résumé

Les représentations basées sur un modèle constituent récemment un cadre prometteur qui intègre des informations dynamiques latentes dans les représentations destinées à l’apprentissage acteur-critique hors politique en aval. Cette approche combine implicitement les avantages des méthodes sans modèle et basées sur un modèle, tout en évitant les coûts d’entraînement associés à ces dernières. Néanmoins, les méthodes existantes de représentation basées sur un modèle peuvent échouer à capturer suffisamment d’informations sur les variables pertinentes et surajuster les premières expériences contenues dans le tampon de relecture. Cela entraîne des biais dans l’apprentissage des représentations et de l’acteur-critique, conduisant à des performances inférieures. Pour y remédier, nous proposons DR.Q (Debiased model-based Representations for Q-learning), un algorithme de Q-apprentissage avec représentations basées sur un modèle et sans biais. DR.Q maximise explicitement l’information mutuelle entre les représentations de la paire état-action courante et l’état suivant, tout en minimisant leurs écarts, et échantillonne les transitions à l’aide d’une relecture d’expériences priorisée atténuée. Nous évaluons DR.Q sur de nombreux benchmarks de contrôle continu avec un seul ensemble d’hyperparamètres, et les résultats montrent que DR.Q peut égaler ou surpasser des références récentes solides, les dépassant parfois d’une large marge. Notre code est disponible à l’adresse https://github.com/dmksjfl/DR.Q.

English

Model-based representations recently stand out as a promising framework that embeds latent dynamics information into the representations for downstream off-policy actor-critic learning. It implicitly combines the advantages of both model-free and model-based approaches while avoiding the training costs associated with model-based methods. Nevertheless, existing model-based representation methods can fail to capture sufficient information about relevant variables and can overfit to early experiences in the replay buffer. These incur biases in representation and actor-critic learning, leading to inferior performance. To address this, we propose Debiased model-based Representations for Q-learning, tagged DR.Q algorithm. DR.Q explicitly maximizes the mutual information between the representations of the current state-action pair and the next state besides minimizing their deviations, and samples transitions with faded prioritized experience replay. We evaluate DR.Q on numerous continuous control benchmarks with a single set of hyperparameters, and the results demonstrate that DR.Q can match or surpass recent strong baselines, sometimes outperforming them by a large margin. Our code is available at https://github.com/dmksjfl/DR.Q.

Représentations débiasées basées sur modèle pour un contrôle continu efficace en échantillons

Debiased Model-based Representations for Sample-efficient Continuous Control

Résumé

Support