Een Algemeen Toepasbaar Dynamisch Model voor Besturing
A Generalist Dynamics Model for Control
May 18, 2023
Auteurs: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI
Samenvatting
We onderzoeken het gebruik van transformator-sequentiemodellen als dynamische modellen (TDMs) voor controle. In een aantal experimenten in de DeepMind-controlsuite vinden we dat, ten eerste, TDMs goed presteren in een leeromgeving met één omgeving in vergelijking met baseline-modellen. Ten tweede vertonen TDMs sterke generalisatiecapaciteiten naar onbekende omgevingen, zowel in een few-shot setting, waarbij een generalistisch model wordt verfijnd met kleine hoeveelheden gegevens uit de doelomgeving, als in een zero-shot setting, waarbij een generalistisch model wordt toegepast op een onbekende omgeving zonder verdere training. We laten verder zien dat het generaliseren van systeemdynamica veel beter kan werken dan het direct generaliseren van optimaal gedrag als beleid. Dit maakt TDMs een veelbelovend ingrediënt voor een fundamenteel model van controle.
English
We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. In a number of experiments in the DeepMind control suite,
we find that first, TDMs perform well in a single-environment learning setting
when compared to baseline models. Second, TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist model is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist model is applied to
an unseen environment without any further training. We further demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. This makes TDMs a promising ingredient for a
foundation model of control.