Un modèle dynamique généraliste pour le contrôle
A Generalist Dynamics Model for Control
May 18, 2023
Auteurs: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI
Résumé
Nous étudions l'utilisation de modèles séquentiels de type transformer comme modèles de dynamique (TDM) pour le contrôle. À travers plusieurs expériences dans la suite de contrôle DeepMind, nous constatons que, premièrement, les TDM obtiennent de bons résultats dans un cadre d'apprentissage mono-environnement par rapport aux modèles de référence. Deuxièmement, les TDM démontrent de solides capacités de généralisation à des environnements inconnus, que ce soit dans un contexte de few-shot, où un modèle généraliste est affiné avec de petites quantités de données provenant de l'environnement cible, ou dans un contexte de zero-shot, où un modèle généraliste est appliqué à un environnement inconnu sans entraînement supplémentaire. Nous montrons en outre que la généralisation des dynamiques du système peut fonctionner bien mieux que la généralisation directe d'un comportement optimal sous forme de politique. Cela fait des TDM un composant prometteur pour un modèle fondateur du contrôle.
English
We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. In a number of experiments in the DeepMind control suite,
we find that first, TDMs perform well in a single-environment learning setting
when compared to baseline models. Second, TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist model is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist model is applied to
an unseen environment without any further training. We further demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. This makes TDMs a promising ingredient for a
foundation model of control.