TD-MPC2: Schaalbaar, robuust wereldmodel voor continue besturing

Samenvatting

TD-MPC is een modelgebaseerd reinforcement learning (RL)-algoritme dat lokale trajectoptimalisatie uitvoert in de latente ruimte van een geleerd impliciet (decoder-vrij) wereldmodel. In dit werk presenteren we TD-MPC2: een reeks verbeteringen ten opzichte van het TD-MPC-algoritme. We tonen aan dat TD-MPC2 aanzienlijk beter presteert dan de referentiemodellen over 104 online RL-taken, verdeeld over 4 diverse taakdomeinen, en consistent sterke resultaten behaalt met één set hyperparameters. We laten verder zien dat de capaciteiten van de agent toenemen met de grootte van het model en de hoeveelheid data, en trainen succesvol een enkele agent met 317M parameters om 80 taken uit te voeren over meerdere taakdomeinen, belichamingen en actieruimtes. We sluiten af met een overzicht van lessen, kansen en risico's die gepaard gaan met grote TD-MPC2-agenten. Bekijk video's, modellen, data, code en meer op https://nicklashansen.github.io/td-mpc2.

English

TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://nicklashansen.github.io/td-mpc2

TD-MPC2: Schaalbaar, robuust wereldmodel voor continue besturing

TD-MPC2: Scalable, Robust World Models for Continuous Control

Samenvatting

Support