ChatPaper.aiChatPaper

Ein allgemeines Dynamikmodell für die Steuerung

A Generalist Dynamics Model for Control

May 18, 2023
Autoren: Ingmar Schubert, Jingwei Zhang, Jake Bruce, Sarah Bechtle, Emilio Parisotto, Martin Riedmiller, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Nicolas Heess
cs.AI

Zusammenfassung

Wir untersuchen die Verwendung von Transformer-Sequenzmodellen als Dynamikmodelle (TDMs) für die Steuerung. In einer Reihe von Experimenten in der DeepMind Control Suite stellen wir fest, dass TDMs erstens in einer Einzelumgebungslernumgebung im Vergleich zu Baseline-Modellen gut abschneiden. Zweitens zeigen TDMs starke Generalisierungsfähigkeiten auf unbekannte Umgebungen, sowohl in einem Few-Shot-Setting, bei dem ein Generalistenmodell mit kleinen Datenmengen aus der Zielumgebung feinabgestimmt wird, als auch in einem Zero-Shot-Setting, bei dem ein Generalistenmodell ohne weitere Anpassungen auf eine unbekannte Umgebung angewendet wird. Wir zeigen weiterhin, dass die Generalisierung von Systemdynamiken viel besser funktionieren kann als die direkte Generalisierung optimalen Verhaltens als Policy. Dies macht TDMs zu einer vielversprechenden Komponente für ein Foundation-Modell der Steuerung.
English
We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.
PDF10December 15, 2024