Модели с маскированием траекторий для прогнозирования, представления и управления
Masked Trajectory Models for Prediction, Representation, and Control
May 4, 2023
Авторы: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran
cs.AI
Аннотация
Мы представляем Маскированные Модели Траекторий (Masked Trajectory Models, MTM) как универсальную абстракцию для задач последовательного принятия решений. MTM принимает траекторию, такую как последовательность состояний и действий, и стремится восстановить эту траекторию, учитывая случайные подмножества той же траектории. Обучаясь с использованием высоко рандомизированных паттернов маскирования, MTM осваивает универсальные сети, которые могут выполнять различные роли или функции, просто выбирая подходящие маски на этапе вывода. Например, одна и та же сеть MTM может использоваться как модель прямой динамики, модель обратной динамики или даже как агент обучения с подкреплением (RL) в автономном режиме. В ходе обширных экспериментов на нескольких задачах непрерывного управления мы показываем, что одна и та же сеть MTM — то есть с одинаковыми весами — может соответствовать или превосходить специализированные сети, обученные для вышеупомянутых функций. Кроме того, мы обнаруживаем, что представления состояний, изученные MTM, могут значительно ускорить процесс обучения традиционных алгоритмов RL. Наконец, в тестах на автономное RL мы выясняем, что MTM конкурирует со специализированными алгоритмами автономного RL, несмотря на то, что MTM является универсальным методом самообучения без явных компонентов RL. Код доступен по адресу https://github.com/facebookresearch/mtm.
English
We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm