TD-MPC2 : Modèles du monde scalables et robustes pour le contrôle continu

papers.abstract

TD-MPC est un algorithme d'apprentissage par renforcement (RL) basé sur un modèle qui effectue une optimisation locale de trajectoire dans l'espace latent d'un modèle du monde implicite (sans décodeur) appris. Dans ce travail, nous présentons TD-MPC2 : une série d'améliorations apportées à l'algorithme TD-MPC. Nous démontrons que TD-MPC2 surpasse significativement les méthodes de référence sur 104 tâches de RL en ligne couvrant 4 domaines de tâches variés, obtenant des résultats constamment solides avec un seul ensemble d'hyperparamètres. Nous montrons en outre que les capacités de l'agent augmentent avec la taille du modèle et des données, et parvenons à entraîner un seul agent de 317 millions de paramètres pour exécuter 80 tâches à travers plusieurs domaines, incarnations et espaces d'action. Nous concluons par un compte rendu des leçons, opportunités et risques associés aux agents TD-MPC2 de grande taille. Explorez des vidéos, modèles, données, code et plus sur https://nicklashansen.github.io/td-mpc2.

English

TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://nicklashansen.github.io/td-mpc2

TD-MPC2 : Modèles du monde scalables et robustes pour le contrôle continu

TD-MPC2: Scalable, Robust World Models for Continuous Control

papers.abstract

Support