Contrôle par Exemples Contrastifs
Contrastive Example-Based Control
July 24, 2023
Auteurs: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI
Résumé
Bien que de nombreux problèmes du monde réel pourraient bénéficier de l'apprentissage par renforcement, ces problèmes s'intègrent rarement dans le cadre des processus de décision markoviens (MDP) : interagir avec l'environnement est souvent coûteux et la spécification des fonctions de récompense est complexe. Motivés par ces défis, des travaux antérieurs ont développé des approches basées sur les données qui apprennent entièrement à partir d'échantillons des dynamiques de transition et d'exemples d'états à haut rendement. Ces méthodes apprennent généralement une fonction de récompense à partir des états à haut rendement, utilisent cette fonction pour étiqueter les transitions, puis appliquent un algorithme d'apprentissage par renforcement hors ligne à ces transitions. Bien que ces méthodes puissent obtenir de bons résultats sur de nombreuses tâches, elles peuvent être complexes, nécessitant souvent une régularisation et des mises à jour par différences temporelles. Dans cet article, nous proposons une méthode pour le contrôle hors ligne basé sur des exemples qui apprend un modèle implicite des transitions multi-étapes, plutôt qu'une fonction de récompense. Nous montrons que ce modèle implicite peut représenter les valeurs Q pour le problème de contrôle basé sur des exemples. Sur une gamme de tâches de contrôle hors ligne basées sur l'état et sur des images, notre méthode surpasse les méthodes de référence utilisant des fonctions de récompense apprises ; des expériences supplémentaires démontrent une amélioration de la robustesse et de la scalabilité avec la taille du jeu de données.
English
While many real-world problems that might benefit from reinforcement
learning, these problems rarely fit into the MDP mold: interacting with the
environment is often expensive and specifying reward functions is challenging.
Motivated by these challenges, prior work has developed data-driven approaches
that learn entirely from samples from the transition dynamics and examples of
high-return states. These methods typically learn a reward function from
high-return states, use that reward function to label the transitions, and then
apply an offline RL algorithm to these transitions. While these methods can
achieve good results on many tasks, they can be complex, often requiring
regularization and temporal difference updates. In this paper, we propose a
method for offline, example-based control that learns an implicit model of
multi-step transitions, rather than a reward function. We show that this
implicit model can represent the Q-values for the example-based control
problem. Across a range of state-based and image-based offline control tasks,
our method outperforms baselines that use learned reward functions; additional
experiments demonstrate improved robustness and scaling with dataset size.