Modèles de trajectoires masquées pour la prédiction, la représentation et le contrôle
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Auteurs: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Résumé
Nous présentons les Modèles de Trajectoires Masquées (MTM) comme une abstraction générique pour la prise de décision séquentielle. MTM prend une trajectoire, telle qu'une séquence état-action, et vise à reconstruire cette trajectoire conditionnée par des sous-ensembles aléatoires de la même trajectoire. En s'entraînant avec un schéma de masquage hautement randomisé, MTM apprend des réseaux polyvalents capables d'assumer différents rôles ou fonctionnalités, simplement en choisissant des masques appropriés au moment de l'inférence. Par exemple, le même réseau MTM peut être utilisé comme un modèle de dynamique directe, un modèle de dynamique inverse, ou même un agent d'apprentissage par renforcement (RL) hors ligne. À travers des expériences approfondies sur plusieurs tâches de contrôle continu, nous montrons que le même réseau MTM — c'est-à-dire avec les mêmes poids — peut égaler ou surpasser des réseaux spécialisés entraînés pour les fonctionnalités mentionnées précédemment. De plus, nous constatons que les représentations d'état apprises par MTM peuvent accélérer significativement la vitesse d'apprentissage des algorithmes de RL traditionnels. Enfin, dans les benchmarks de RL hors ligne, nous observons que MTM est compétitif avec des algorithmes de RL hors ligne spécialisés, bien que MTM soit une méthode d'apprentissage auto-supervisé générique sans aucun composant explicite de RL. Le code est disponible à l'adresse suivante : https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm