Um Modelo Generalista de Dinâmica para Controle

Resumo

Investigamos o uso de modelos de sequência baseados em transformers como modelos de dinâmica (TDMs) para controle. Em uma série de experimentos no conjunto de controle da DeepMind, descobrimos que, primeiro, os TDMs têm um bom desempenho em um cenário de aprendizado em um único ambiente quando comparados a modelos de referência. Segundo, os TDMs exibem fortes capacidades de generalização para ambientes não vistos, tanto em um cenário de poucos exemplos, onde um modelo generalista é ajustado com pequenas quantidades de dados do ambiente alvo, quanto em um cenário de zero-shot, onde um modelo generalista é aplicado a um ambiente não visto sem qualquer treinamento adicional. Demonstramos ainda que generalizar a dinâmica do sistema pode funcionar muito melhor do que generalizar o comportamento ótimo diretamente como uma política. Isso torna os TDMs um componente promissor para um modelo base de controle.

English

We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.

Um Modelo Generalista de Dinâmica para Controle

A Generalist Dynamics Model for Control

Resumo

Support