Gemaskerde Trajectoriemodellen voor Voorspelling, Representatie en Controle

Samenvatting

We introduceren Masked Trajectory Models (MTM) als een generieke abstractie voor sequentiële besluitvorming. MTM neemt een traject, zoals een staat-actie-reeks, en streeft ernaar het traject te reconstrueren, geconditioneerd op willekeurige subsets van hetzelfde traject. Door te trainen met een sterk gerandomiseerd maskeringspatroon, leert MTM veelzijdige netwerken die verschillende rollen of capaciteiten kunnen aannemen, simpelweg door geschikte maskers te kiezen tijdens de inferentiefase. Hetzelfde MTM-netwerk kan bijvoorbeeld worden gebruikt als een forward dynamisch model, een inverse dynamisch model, of zelfs een offline RL-agent. Door uitgebreide experimenten in verschillende continue controle-taken tonen we aan dat hetzelfde MTM-netwerk – d.w.z. dezelfde gewichten – gespecialiseerde netwerken die zijn getraind voor de bovengenoemde capaciteiten kan evenaren of overtreffen. Daarnaast ontdekken we dat staatrepresentaties die door MTM worden geleerd, de leercurve van traditionele RL-algoritmen aanzienlijk kunnen versnellen. Tot slot blijkt MTM in offline RL-benchmarks competitief te zijn met gespecialiseerde offline RL-algoritmen, ondanks dat MTM een generieke zelfgesuperviseerde leermethode is zonder expliciete RL-componenten. Code is beschikbaar op https://github.com/facebookresearch/mtm.

English

We introduce Masked Trajectory Models (MTM) as a generic abstraction for sequential decision making. MTM takes a trajectory, such as a state-action sequence, and aims to reconstruct the trajectory conditioned on random subsets of the same trajectory. By training with a highly randomized masking pattern, MTM learns versatile networks that can take on different roles or capabilities, by simply choosing appropriate masks at inference time. For example, the same MTM network can be used as a forward dynamics model, inverse dynamics model, or even an offline RL agent. Through extensive experiments in several continuous control tasks, we show that the same MTM network -- i.e. same weights -- can match or outperform specialized networks trained for the aforementioned capabilities. Additionally, we find that state representations learned by MTM can significantly accelerate the learning speed of traditional RL algorithms. Finally, in offline RL benchmarks, we find that MTM is competitive with specialized offline RL algorithms, despite MTM being a generic self-supervised learning method without any explicit RL components. Code is available at https://github.com/facebookresearch/mtm

Gemaskerde Trajectoriemodellen voor Voorspelling, Representatie en Controle

Masked Trajectory Models for Prediction, Representation, and Control

Samenvatting

Support