Maskierte Trajektorienmodelle für Vorhersage, Repräsentation und Steuerung
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Autoren: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Zusammenfassung
Wir stellen Masked Trajectory Models (MTM) als eine generische Abstraktion für sequenzielle Entscheidungsfindung vor. MTM nimmt eine Trajektorie, wie beispielsweise eine Zustand-Aktions-Sequenz, und zielt darauf ab, die Trajektorie basierend auf zufälligen Teilmengen derselben Trajektorie zu rekonstruieren. Durch das Training mit einem stark randomisierten Maskierungsmuster lernt MTM vielseitige Netzwerke, die durch die einfache Wahl geeigneter Masken zur Inferenzzeit verschiedene Rollen oder Fähigkeiten übernehmen können. Zum Beispiel kann dasselbe MTM-Netzwerk als Vorwärtsdynamikmodell, inverses Dynamikmodell oder sogar als Offline-RL-Agent verwendet werden. Durch umfangreiche Experimente in mehreren kontinuierlichen Steuerungsaufgaben zeigen wir, dass dasselbe MTM-Netzwerk – d.h. mit denselben Gewichten – spezialisierte Netzwerke, die für die genannten Fähigkeiten trainiert wurden, übertreffen oder zumindest gleichwertig abschneiden kann. Darüber hinaus stellen wir fest, dass durch MTM gelernte Zustandsrepräsentationen die Lerngeschwindigkeit traditioneller RL-Algorithmen erheblich beschleunigen können. Schließlich zeigen wir in Offline-RL-Benchmarks, dass MTM mit spezialisierten Offline-RL-Algorithmen konkurrieren kann, obwohl MTM eine generische selbstüberwachte Lernmethode ohne explizite RL-Komponenten ist. Der Code ist verfügbar unter https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm