TD-MPC2: Масштабируемые и устойчивые модели мира для задач непрерывного управления
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
Авторы: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
Аннотация
TD-MPC — это алгоритм обучения с подкреплением (RL) на основе моделей, который выполняет локальную оптимизацию траекторий в латентном пространстве обученной неявной (без декодера) модели мира. В данной работе мы представляем TD-MPC2 — серию улучшений алгоритма TD-MPC. Мы демонстрируем, что TD-MPC2 значительно превосходит базовые подходы на 104 задачах онлайн RL, охватывающих 4 различные предметные области, достигая стабильно высоких результатов с одним набором гиперпараметров. Мы также показываем, что возможности агента увеличиваются с ростом размера модели и объема данных, и успешно обучаем одного агента с 317 миллионами параметров для выполнения 80 задач в различных предметных областях, воплощениях и пространствах действий. В заключение мы обсуждаем уроки, возможности и риски, связанные с крупными агентами TD-MPC2. Видео, модели, данные, код и многое другое доступны по ссылке: https://nicklashansen.github.io/td-mpc2.
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2