Универсальная модель динамики для управления
A Generalist Dynamics Model for Control
May 18, 2023
Авторы: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI
Аннотация
Мы исследуем использование трансформерных моделей последовательностей в качестве моделей динамики (TDM) для задач управления. В ряде экспериментов на наборе задач DeepMind Control Suite мы обнаруживаем, что, во-первых, TDM демонстрируют высокую производительность в условиях обучения на одной среде по сравнению с базовыми моделями. Во-вторых, TDM проявляют сильные способности к обобщению на незнакомые среды, как в условиях few-shot обучения, где универсальная модель дообучается на небольшом количестве данных из целевой среды, так и в условиях zero-shot, где универсальная модель применяется к новой среде без дополнительного обучения. Мы также показываем, что обобщение динамики системы может работать значительно лучше, чем прямое обобщение оптимального поведения в виде политики. Это делает TDM перспективным компонентом для создания базовой модели управления.
English
We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. In a number of experiments in the DeepMind control suite,
we find that first, TDMs perform well in a single-environment learning setting
when compared to baseline models. Second, TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist model is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist model is applied to
an unseen environment without any further training. We further demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. This makes TDMs a promising ingredient for a
foundation model of control.