TD-MPC2: Modelli del Mondo Scalabili e Robusti per il Controllo Continuo

Abstract

TD-MPC è un algoritmo di reinforcement learning (RL) basato su modello che esegue un'ottimizzazione locale delle traiettorie nello spazio latente di un modello implicito (senza decoder) del mondo appreso. In questo lavoro, presentiamo TD-MPC2: una serie di miglioramenti rispetto all'algoritmo TD-MPC. Dimostriamo che TD-MPC2 migliora significativamente rispetto ai benchmark su 104 task di RL online che coprono 4 diversi domini di task, ottenendo risultati costantemente solidi con un singolo set di iperparametri. Mostriamo inoltre che le capacità dell'agente aumentano con le dimensioni del modello e dei dati, e addestriamo con successo un singolo agente con 317 milioni di parametri per eseguire 80 task in più domini di task, incarnazioni e spazi d'azione. Concludiamo con una riflessione sulle lezioni apprese, le opportunità e i rischi associati agli agenti TD-MPC2 di grandi dimensioni. Esplora video, modelli, dati, codice e altro su https://nicklashansen.github.io/td-mpc2

English

TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://nicklashansen.github.io/td-mpc2

TD-MPC2: Modelli del Mondo Scalabili e Robusti per il Controllo Continuo

TD-MPC2: Scalable, Robust World Models for Continuous Control

Abstract

Support