TD-MPC2: 連続制御のためのスケーラブルでロバストな世界モデル
TD-MPC2: Scalable, Robust World Models for Continuous Control
October 25, 2023
著者: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI
要旨
TD-MPCは、学習された暗黙的(デコーダーフリー)な世界モデルの潜在空間において局所的な軌道最適化を行うモデルベース強化学習(RL)アルゴリズムです。本研究では、TD-MPCアルゴリズムを改良したTD-MPC2を提案します。TD-MPC2は、4つの多様なタスク領域にまたがる104のオンラインRLタスクにおいてベースラインを大幅に上回り、単一のハイパーパラメータセットで一貫して強力な結果を達成することを実証します。さらに、エージェントの能力がモデルサイズとデータサイズに比例して向上することを示し、3億1700万パラメータの単一エージェントを複数のタスク領域、実装形態、およびアクション空間にわたる80のタスクを実行するように訓練することに成功しました。最後に、大規模TD-MPC2エージェントに関連する教訓、機会、およびリスクについて考察します。動画、モデル、データ、コードなどはhttps://nicklashansen.github.io/td-mpc2でご覧いただけます。
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs
local trajectory optimization in the latent space of a learned implicit
(decoder-free) world model. In this work, we present TD-MPC2: a series of
improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves
significantly over baselines across 104 online RL tasks spanning 4 diverse task
domains, achieving consistently strong results with a single set of
hyperparameters. We further show that agent capabilities increase with model
and data size, and successfully train a single 317M parameter agent to perform
80 tasks across multiple task domains, embodiments, and action spaces. We
conclude with an account of lessons, opportunities, and risks associated with
large TD-MPC2 agents. Explore videos, models, data, code, and more at
https://nicklashansen.github.io/td-mpc2