TD-MPC2: Schaalbaar, robuust wereldmodel voor continue besturing
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
Auteurs: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
Samenvatting
TD-MPC is een modelgebaseerd reinforcement learning (RL)-algoritme dat lokale trajectoptimalisatie uitvoert in de latente ruimte van een geleerd impliciet (decoder-vrij) wereldmodel. In dit werk presenteren we TD-MPC2: een reeks verbeteringen ten opzichte van het TD-MPC-algoritme. We tonen aan dat TD-MPC2 aanzienlijk beter presteert dan de referentiemodellen over 104 online RL-taken, verdeeld over 4 diverse taakdomeinen, en consistent sterke resultaten behaalt met één set hyperparameters. We laten verder zien dat de capaciteiten van de agent toenemen met de grootte van het model en de hoeveelheid data, en trainen succesvol een enkele agent met 317M parameters om 80 taken uit te voeren over meerdere taakdomeinen, belichamingen en actieruimtes. We sluiten af met een overzicht van lessen, kansen en risico's die gepaard gaan met grote TD-MPC2-agenten. Bekijk video's, modellen, data, code en meer op https://nicklashansen.github.io/td-mpc2.
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2