Un Modello Dinamico Generalista per il Controllo
A Generalist Dynamics Model for Control
May 18, 2023
Autori: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI
Abstract
Esaminiamo l'uso di modelli sequenziali basati su transformer come modelli dinamici (TDM) per il controllo. In una serie di esperimenti condotti nel DeepMind control suite, osserviamo che, in primo luogo, i TDM ottengono buoni risultati in un contesto di apprendimento in un singolo ambiente rispetto ai modelli di riferimento. In secondo luogo, i TDM mostrano forti capacità di generalizzazione ad ambienti non visti, sia in un contesto few-shot, in cui un modello generalista viene affinato con piccole quantità di dati provenienti dall'ambiente target, sia in un contesto zero-shot, in cui un modello generalista viene applicato a un ambiente non visto senza ulteriore addestramento. Dimostriamo inoltre che generalizzare le dinamiche del sistema può funzionare molto meglio rispetto a generalizzare direttamente il comportamento ottimale come politica. Ciò rende i TDM un ingrediente promettente per un modello di controllo di base.
English
We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. In a number of experiments in the DeepMind control suite,
we find that first, TDMs perform well in a single-environment learning setting
when compared to baseline models. Second, TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist model is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist model is applied to
an unseen environment without any further training. We further demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. This makes TDMs a promising ingredient for a
foundation model of control.