ChatPaper.aiChatPaper

Un Modelo Dinámico Generalista para Control

A Generalist Dynamics Model for Control

May 18, 2023
Autores: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI

Resumen

Investigamos el uso de modelos de secuencias basados en transformadores (TDMs, por sus siglas en inglés) como modelos dinámicos para control. En una serie de experimentos dentro del conjunto de control de DeepMind, encontramos que, en primer lugar, los TDMs tienen un buen desempeño en un entorno de aprendizaje de un solo ambiente en comparación con modelos de referencia. En segundo lugar, los TDMs exhiben fuertes capacidades de generalización a entornos no vistos, tanto en un escenario de pocos ejemplos, donde un modelo generalista se ajusta con pequeñas cantidades de datos del entorno objetivo, como en un escenario de cero ejemplos, donde un modelo generalista se aplica a un entorno no visto sin ningún entrenamiento adicional. Además, demostramos que generalizar la dinámica del sistema puede funcionar mucho mejor que generalizar directamente el comportamiento óptimo como una política. Esto convierte a los TDMs en un componente prometedor para un modelo base de control.
English
We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.
PDF10December 15, 2024