Modelli di Traiettorie Mascherate per Previsione, Rappresentazione e Controllo
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Autori: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Abstract
Introduciamo i Modelli di Traiettoria Mascherata (MTM) come un'astrazione generica per il processo decisionale sequenziale. MTM prende una traiettoria, come una sequenza stato-azione, e mira a ricostruire la traiettoria condizionata a sottoinsiemi casuali della stessa traiettoria. Addestrando con uno schema di mascheramento altamente randomizzato, MTM apprende reti versatili che possono assumere ruoli o capacità diversi, semplicemente scegliendo maschere appropriate al momento dell'inferenza. Ad esempio, la stessa rete MTM può essere utilizzata come modello di dinamica diretta, modello di dinamica inversa o persino come agente di RL offline. Attraverso esperimenti estesi in diversi compiti di controllo continuo, dimostriamo che la stessa rete MTM - cioè con gli stessi pesi - può eguagliare o superare reti specializzate addestrate per le suddette capacità. Inoltre, scopriamo che le rappresentazioni degli stati apprese da MTM possono accelerare significativamente la velocità di apprendimento degli algoritmi RL tradizionali. Infine, nei benchmark di RL offline, troviamo che MTM è competitivo con algoritmi RL offline specializzati, nonostante MTM sia un metodo generico di apprendimento auto-supervisionato senza componenti RL espliciti. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm