Modelos de Trayectorias Enmascaradas para Predicción, Representación y Control
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Autores: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Resumen
Presentamos los Modelos de Trayectorias Enmascaradas (MTM, por sus siglas en inglés) como una abstracción genérica para la toma de decisiones secuenciales. MTM toma una trayectoria, como una secuencia de estados-acciones, y busca reconstruir la trayectoria condicionada a subconjuntos aleatorios de la misma trayectoria. Al entrenarse con un patrón de enmascaramiento altamente aleatorizado, MTM aprende redes versátiles que pueden asumir diferentes roles o capacidades, simplemente eligiendo máscaras apropiadas en el momento de la inferencia. Por ejemplo, la misma red MTM puede usarse como un modelo de dinámica directa, un modelo de dinámica inversa o incluso como un agente de aprendizaje por refuerzo (RL) offline. A través de experimentos exhaustivos en varias tareas de control continuo, demostramos que la misma red MTM —es decir, con los mismos pesos— puede igualar o superar a redes especializadas entrenadas para las capacidades mencionadas. Además, encontramos que las representaciones de estado aprendidas por MTM pueden acelerar significativamente la velocidad de aprendizaje de los algoritmos tradicionales de RL. Finalmente, en benchmarks de RL offline, encontramos que MTM es competitivo con algoritmos especializados de RL offline, a pesar de que MTM es un método genérico de aprendizaje autosupervisado sin componentes explícitos de RL. El código está disponible en https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm