Gemaskerde Trajectoriemodellen voor Voorspelling, Representatie en Controle
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Auteurs: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Samenvatting
We introduceren Masked Trajectory Models (MTM) als een generieke abstractie voor sequentiële besluitvorming. MTM neemt een traject, zoals een staat-actie-reeks, en streeft ernaar het traject te reconstrueren, geconditioneerd op willekeurige subsets van hetzelfde traject. Door te trainen met een sterk gerandomiseerd maskeringspatroon, leert MTM veelzijdige netwerken die verschillende rollen of capaciteiten kunnen aannemen, simpelweg door geschikte maskers te kiezen tijdens de inferentiefase. Hetzelfde MTM-netwerk kan bijvoorbeeld worden gebruikt als een forward dynamisch model, een inverse dynamisch model, of zelfs een offline RL-agent. Door uitgebreide experimenten in verschillende continue controle-taken tonen we aan dat hetzelfde MTM-netwerk – d.w.z. dezelfde gewichten – gespecialiseerde netwerken die zijn getraind voor de bovengenoemde capaciteiten kan evenaren of overtreffen. Daarnaast ontdekken we dat staatrepresentaties die door MTM worden geleerd, de leercurve van traditionele RL-algoritmen aanzienlijk kunnen versnellen. Tot slot blijkt MTM in offline RL-benchmarks competitief te zijn met gespecialiseerde offline RL-algoritmen, ondanks dat MTM een generieke zelfgesuperviseerde leermethode is zonder expliciete RL-componenten. Code is beschikbaar op https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm