TD-MPC2 : Modèles du monde scalables et robustes pour le contrôle continu
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
Auteurs: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
Résumé
TD-MPC est un algorithme d'apprentissage par renforcement (RL) basé sur un modèle qui effectue une optimisation locale de trajectoire dans l'espace latent d'un modèle du monde implicite (sans décodeur) appris. Dans ce travail, nous présentons TD-MPC2 : une série d'améliorations apportées à l'algorithme TD-MPC. Nous démontrons que TD-MPC2 surpasse significativement les méthodes de référence sur 104 tâches de RL en ligne couvrant 4 domaines de tâches variés, obtenant des résultats constamment solides avec un seul ensemble d'hyperparamètres. Nous montrons en outre que les capacités de l'agent augmentent avec la taille du modèle et des données, et parvenons à entraîner un seul agent de 317 millions de paramètres pour exécuter 80 tâches à travers plusieurs domaines, incarnations et espaces d'action. Nous concluons par un compte rendu des leçons, opportunités et risques associés aux agents TD-MPC2 de grande taille. Explorez des vidéos, modèles, données, code et plus sur https://nicklashansen.github.io/td-mpc2.
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2