Modelos de Trajetória Mascarada para Previsão, Representação e Controle
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Autores: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Resumo
Apresentamos os Modelos de Trajetória Mascarada (MTM) como uma abstração genérica para tomada de decisão sequencial. O MTM recebe uma trajetória, como uma sequência de estado-ação, e visa reconstruir a trajetória condicionada a subconjuntos aleatórios da mesma trajetória. Ao treinar com um padrão de mascaramento altamente randomizado, o MTM aprende redes versáteis que podem assumir diferentes papéis ou capacidades, simplesmente escolhendo máscaras apropriadas no momento da inferência. Por exemplo, a mesma rede MTM pode ser usada como um modelo de dinâmica direta, modelo de dinâmica inversa ou até mesmo como um agente de RL offline. Por meio de extensos experimentos em várias tarefas de controle contínuo, mostramos que a mesma rede MTM — ou seja, com os mesmos pesos — pode igualar ou superar redes especializadas treinadas para as capacidades mencionadas. Além disso, descobrimos que as representações de estado aprendidas pelo MTM podem acelerar significativamente a velocidade de aprendizado de algoritmos tradicionais de RL. Por fim, em benchmarks de RL offline, constatamos que o MTM é competitivo com algoritmos especializados de RL offline, apesar de o MTM ser um método genérico de aprendizado autossupervisionado sem nenhum componente explícito de RL. O código está disponível em https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm