TD-MPC2: Skalierbare, robuste Weltmodelle für kontinuierliche Steuerung

papers.abstract

TD-MPC ist ein modellbasiertes Reinforcement-Learning (RL)-Algorithmus, der lokale Trajektorienoptimierung im latenten Raum eines gelernten impliziten (decoderfreien) Weltmodells durchführt. In dieser Arbeit präsentieren wir TD-MPC2: eine Reihe von Verbesserungen gegenüber dem TD-MPC-Algorithmus. Wir zeigen, dass TD-MPC2 signifikant besser abschneidet als Vergleichsverfahren über 104 Online-RL-Aufgaben, die 4 verschiedene Aufgabenbereiche umfassen, und dabei durchweg starke Ergebnisse mit einem einzigen Satz von Hyperparametern erzielt. Wir zeigen weiter, dass die Fähigkeiten des Agenten mit der Modell- und Datengröße zunehmen, und trainieren erfolgreich einen einzelnen Agenten mit 317M Parametern, der 80 Aufgaben über mehrere Aufgabenbereiche, Embodiments und Aktionsräume hinweg ausführt. Wir schließen mit einer Darstellung von Lehren, Chancen und Risiken, die mit großen TD-MPC2-Agenten verbunden sind. Erkunden Sie Videos, Modelle, Daten, Code und mehr unter https://nicklashansen.github.io/td-mpc2.

English

TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://nicklashansen.github.io/td-mpc2

TD-MPC2: Skalierbare, robuste Weltmodelle für kontinuierliche Steuerung

TD-MPC2: Scalable, Robust World Models for Continuous Control

papers.abstract

Support