TD-MPC2: Modelli del Mondo Scalabili e Robusti per il Controllo Continuo
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
Autori: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
Abstract
TD-MPC è un algoritmo di reinforcement learning (RL) basato su modello che esegue
un'ottimizzazione locale delle traiettorie nello spazio latente di un modello
implicito (senza decoder) del mondo appreso. In questo lavoro, presentiamo TD-MPC2:
una serie di miglioramenti rispetto all'algoritmo TD-MPC. Dimostriamo che TD-MPC2
migliora significativamente rispetto ai benchmark su 104 task di RL online che
coprono 4 diversi domini di task, ottenendo risultati costantemente solidi con un
singolo set di iperparametri. Mostriamo inoltre che le capacità dell'agente
aumentano con le dimensioni del modello e dei dati, e addestriamo con successo un
singolo agente con 317 milioni di parametri per eseguire 80 task in più domini di
task, incarnazioni e spazi d'azione. Concludiamo con una riflessione sulle lezioni
apprese, le opportunità e i rischi associati agli agenti TD-MPC2 di grandi
dimensioni. Esplora video, modelli, dati, codice e altro su
https://nicklashansen.github.io/td-mpc2
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2