TD-MPC2: Skalierbare, robuste Weltmodelle für kontinuierliche Steuerung
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
Autoren: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
Zusammenfassung
TD-MPC ist ein modellbasiertes Reinforcement-Learning (RL)-Algorithmus, der lokale Trajektorienoptimierung im latenten Raum eines gelernten impliziten (decoderfreien) Weltmodells durchführt. In dieser Arbeit präsentieren wir TD-MPC2: eine Reihe von Verbesserungen gegenüber dem TD-MPC-Algorithmus. Wir zeigen, dass TD-MPC2 signifikant besser abschneidet als Vergleichsverfahren über 104 Online-RL-Aufgaben, die 4 verschiedene Aufgabenbereiche umfassen, und dabei durchweg starke Ergebnisse mit einem einzigen Satz von Hyperparametern erzielt. Wir zeigen weiter, dass die Fähigkeiten des Agenten mit der Modell- und Datengröße zunehmen, und trainieren erfolgreich einen einzelnen Agenten mit 317M Parametern, der 80 Aufgaben über mehrere Aufgabenbereiche, Embodiments und Aktionsräume hinweg ausführt. Wir schließen mit einer Darstellung von Lehren, Chancen und Risiken, die mit großen TD-MPC2-Agenten verbunden sind. Erkunden Sie Videos, Modelle, Daten, Code und mehr unter https://nicklashansen.github.io/td-mpc2.
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2