Un Modello Dinamico Generalista per il Controllo

Abstract

Esaminiamo l'uso di modelli sequenziali basati su transformer come modelli dinamici (TDM) per il controllo. In una serie di esperimenti condotti nel DeepMind control suite, osserviamo che, in primo luogo, i TDM ottengono buoni risultati in un contesto di apprendimento in un singolo ambiente rispetto ai modelli di riferimento. In secondo luogo, i TDM mostrano forti capacità di generalizzazione ad ambienti non visti, sia in un contesto few-shot, in cui un modello generalista viene affinato con piccole quantità di dati provenienti dall'ambiente target, sia in un contesto zero-shot, in cui un modello generalista viene applicato a un ambiente non visto senza ulteriore addestramento. Dimostriamo inoltre che generalizzare le dinamiche del sistema può funzionare molto meglio rispetto a generalizzare direttamente il comportamento ottimale come politica. Ciò rende i TDM un ingrediente promettente per un modello di controllo di base.

English

We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.

Un Modello Dinamico Generalista per il Controllo

A Generalist Dynamics Model for Control

Abstract

Support