TD-MPC2: Modelos del Mundo Escalables y Robustos para Control Continuo
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
Autores: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
Resumen
TD-MPC es un algoritmo de aprendizaje por refuerzo (RL) basado en modelos que realiza optimización local de trayectorias en el espacio latente de un modelo del mundo implícito (sin decodificador) aprendido. En este trabajo, presentamos TD-MPC2: una serie de mejoras sobre el algoritmo TD-MPC. Demostramos que TD-MPC2 supera significativamente a los métodos de referencia en 104 tareas de RL en línea que abarcan 4 dominios de tareas diversos, logrando resultados consistentemente sólidos con un único conjunto de hiperparámetros. Además, mostramos que las capacidades del agente aumentan con el tamaño del modelo y de los datos, y entrenamos con éxito un único agente de 317 millones de parámetros para realizar 80 tareas en múltiples dominios, encarnaciones y espacios de acción. Concluimos con un análisis de lecciones aprendidas, oportunidades y riesgos asociados con agentes TD-MPC2 de gran escala. Explora videos, modelos, datos, código y más en https://nicklashansen.github.io/td-mpc2.
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2