Maskierte Trajektorienmodelle für Vorhersage, Repräsentation und Steuerung

papers.abstract

Wir stellen Masked Trajectory Models (MTM) als eine generische Abstraktion für sequenzielle Entscheidungsfindung vor. MTM nimmt eine Trajektorie, wie beispielsweise eine Zustand-Aktions-Sequenz, und zielt darauf ab, die Trajektorie basierend auf zufälligen Teilmengen derselben Trajektorie zu rekonstruieren. Durch das Training mit einem stark randomisierten Maskierungsmuster lernt MTM vielseitige Netzwerke, die durch die einfache Wahl geeigneter Masken zur Inferenzzeit verschiedene Rollen oder Fähigkeiten übernehmen können. Zum Beispiel kann dasselbe MTM-Netzwerk als Vorwärtsdynamikmodell, inverses Dynamikmodell oder sogar als Offline-RL-Agent verwendet werden. Durch umfangreiche Experimente in mehreren kontinuierlichen Steuerungsaufgaben zeigen wir, dass dasselbe MTM-Netzwerk – d.h. mit denselben Gewichten – spezialisierte Netzwerke, die für die genannten Fähigkeiten trainiert wurden, übertreffen oder zumindest gleichwertig abschneiden kann. Darüber hinaus stellen wir fest, dass durch MTM gelernte Zustandsrepräsentationen die Lerngeschwindigkeit traditioneller RL-Algorithmen erheblich beschleunigen können. Schließlich zeigen wir in Offline-RL-Benchmarks, dass MTM mit spezialisierten Offline-RL-Algorithmen konkurrieren kann, obwohl MTM eine generische selbstüberwachte Lernmethode ohne explizite RL-Komponenten ist. Der Code ist verfügbar unter https://github.com/facebookresearch/mtm.

English

We introduce Masked Trajectory Models (MTM) as a generic abstraction for sequential decision making. MTM takes a trajectory, such as a state-action sequence, and aims to reconstruct the trajectory conditioned on random subsets of the same trajectory. By training with a highly randomized masking pattern, MTM learns versatile networks that can take on different roles or capabilities, by simply choosing appropriate masks at inference time. For example, the same MTM network can be used as a forward dynamics model, inverse dynamics model, or even an offline RL agent. Through extensive experiments in several continuous control tasks, we show that the same MTM network -- i.e. same weights -- can match or outperform specialized networks trained for the aforementioned capabilities. Additionally, we find that state representations learned by MTM can significantly accelerate the learning speed of traditional RL algorithms. Finally, in offline RL benchmarks, we find that MTM is competitive with specialized offline RL algorithms, despite MTM being a generic self-supervised learning method without any explicit RL components. Code is available at https://github.com/facebookresearch/mtm

Maskierte Trajektorienmodelle für Vorhersage, Repräsentation und Steuerung

Masked Trajectory Models for Prediction, Representation, and Control

papers.abstract

Support