Um Modelo Generalista de Dinâmica para Controle
A Generalist Dynamics Model for Control
May 18, 2023
Autores: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI
Resumo
Investigamos o uso de modelos de sequência baseados em transformers como modelos de dinâmica (TDMs) para controle. Em uma série de experimentos no conjunto de controle da DeepMind, descobrimos que, primeiro, os TDMs têm um bom desempenho em um cenário de aprendizado em um único ambiente quando comparados a modelos de referência. Segundo, os TDMs exibem fortes capacidades de generalização para ambientes não vistos, tanto em um cenário de poucos exemplos, onde um modelo generalista é ajustado com pequenas quantidades de dados do ambiente alvo, quanto em um cenário de zero-shot, onde um modelo generalista é aplicado a um ambiente não visto sem qualquer treinamento adicional. Demonstramos ainda que generalizar a dinâmica do sistema pode funcionar muito melhor do que generalizar o comportamento ótimo diretamente como uma política. Isso torna os TDMs um componente promissor para um modelo base de controle.
English
We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. In a number of experiments in the DeepMind control suite,
we find that first, TDMs perform well in a single-environment learning setting
when compared to baseline models. Second, TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist model is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist model is applied to
an unseen environment without any further training. We further demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. This makes TDMs a promising ingredient for a
foundation model of control.