Универсальная модель динамики для управления

Аннотация

Мы исследуем использование трансформерных моделей последовательностей в качестве моделей динамики (TDM) для задач управления. В ряде экспериментов на наборе задач DeepMind Control Suite мы обнаруживаем, что, во-первых, TDM демонстрируют высокую производительность в условиях обучения на одной среде по сравнению с базовыми моделями. Во-вторых, TDM проявляют сильные способности к обобщению на незнакомые среды, как в условиях few-shot обучения, где универсальная модель дообучается на небольшом количестве данных из целевой среды, так и в условиях zero-shot, где универсальная модель применяется к новой среде без дополнительного обучения. Мы также показываем, что обобщение динамики системы может работать значительно лучше, чем прямое обобщение оптимального поведения в виде политики. Это делает TDM перспективным компонентом для создания базовой модели управления.

English

We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.

Универсальная модель динамики для управления

A Generalist Dynamics Model for Control

Аннотация

Support