Modèles de trajectoires masquées pour la prédiction, la représentation et le contrôle

Résumé

Nous présentons les Modèles de Trajectoires Masquées (MTM) comme une abstraction générique pour la prise de décision séquentielle. MTM prend une trajectoire, telle qu'une séquence état-action, et vise à reconstruire cette trajectoire conditionnée par des sous-ensembles aléatoires de la même trajectoire. En s'entraînant avec un schéma de masquage hautement randomisé, MTM apprend des réseaux polyvalents capables d'assumer différents rôles ou fonctionnalités, simplement en choisissant des masques appropriés au moment de l'inférence. Par exemple, le même réseau MTM peut être utilisé comme un modèle de dynamique directe, un modèle de dynamique inverse, ou même un agent d'apprentissage par renforcement (RL) hors ligne. À travers des expériences approfondies sur plusieurs tâches de contrôle continu, nous montrons que le même réseau MTM — c'est-à-dire avec les mêmes poids — peut égaler ou surpasser des réseaux spécialisés entraînés pour les fonctionnalités mentionnées précédemment. De plus, nous constatons que les représentations d'état apprises par MTM peuvent accélérer significativement la vitesse d'apprentissage des algorithmes de RL traditionnels. Enfin, dans les benchmarks de RL hors ligne, nous observons que MTM est compétitif avec des algorithmes de RL hors ligne spécialisés, bien que MTM soit une méthode d'apprentissage auto-supervisé générique sans aucun composant explicite de RL. Le code est disponible à l'adresse suivante : https://github.com/facebookresearch/mtm.

English

We introduce Masked Trajectory Models (MTM) as a generic abstraction for sequential decision making. MTM takes a trajectory, such as a state-action sequence, and aims to reconstruct the trajectory conditioned on random subsets of the same trajectory. By training with a highly randomized masking pattern, MTM learns versatile networks that can take on different roles or capabilities, by simply choosing appropriate masks at inference time. For example, the same MTM network can be used as a forward dynamics model, inverse dynamics model, or even an offline RL agent. Through extensive experiments in several continuous control tasks, we show that the same MTM network -- i.e. same weights -- can match or outperform specialized networks trained for the aforementioned capabilities. Additionally, we find that state representations learned by MTM can significantly accelerate the learning speed of traditional RL algorithms. Finally, in offline RL benchmarks, we find that MTM is competitive with specialized offline RL algorithms, despite MTM being a generic self-supervised learning method without any explicit RL components. Code is available at https://github.com/facebookresearch/mtm

Modèles de trajectoires masquées pour la prédiction, la représentation et le contrôle

Masked Trajectory Models for Prediction, Representation, and Control

Résumé

Support