Contrôle par Exemples Contrastifs

papers.abstract

Bien que de nombreux problèmes du monde réel pourraient bénéficier de l'apprentissage par renforcement, ces problèmes s'intègrent rarement dans le cadre des processus de décision markoviens (MDP) : interagir avec l'environnement est souvent coûteux et la spécification des fonctions de récompense est complexe. Motivés par ces défis, des travaux antérieurs ont développé des approches basées sur les données qui apprennent entièrement à partir d'échantillons des dynamiques de transition et d'exemples d'états à haut rendement. Ces méthodes apprennent généralement une fonction de récompense à partir des états à haut rendement, utilisent cette fonction pour étiqueter les transitions, puis appliquent un algorithme d'apprentissage par renforcement hors ligne à ces transitions. Bien que ces méthodes puissent obtenir de bons résultats sur de nombreuses tâches, elles peuvent être complexes, nécessitant souvent une régularisation et des mises à jour par différences temporelles. Dans cet article, nous proposons une méthode pour le contrôle hors ligne basé sur des exemples qui apprend un modèle implicite des transitions multi-étapes, plutôt qu'une fonction de récompense. Nous montrons que ce modèle implicite peut représenter les valeurs Q pour le problème de contrôle basé sur des exemples. Sur une gamme de tâches de contrôle hors ligne basées sur l'état et sur des images, notre méthode surpasse les méthodes de référence utilisant des fonctions de récompense apprises ; des expériences supplémentaires démontrent une amélioration de la robustesse et de la scalabilité avec la taille du jeu de données.

English

While many real-world problems that might benefit from reinforcement learning, these problems rarely fit into the MDP mold: interacting with the environment is often expensive and specifying reward functions is challenging. Motivated by these challenges, prior work has developed data-driven approaches that learn entirely from samples from the transition dynamics and examples of high-return states. These methods typically learn a reward function from high-return states, use that reward function to label the transitions, and then apply an offline RL algorithm to these transitions. While these methods can achieve good results on many tasks, they can be complex, often requiring regularization and temporal difference updates. In this paper, we propose a method for offline, example-based control that learns an implicit model of multi-step transitions, rather than a reward function. We show that this implicit model can represent the Q-values for the example-based control problem. Across a range of state-based and image-based offline control tasks, our method outperforms baselines that use learned reward functions; additional experiments demonstrate improved robustness and scaling with dataset size.

Contrôle par Exemples Contrastifs

Contrastive Example-Based Control

papers.abstract

Support