ChatPaper.aiChatPaper

TD-MPC2: Modelos de Mundo Escaláveis e Robustos para Controle Contínuo

TD-MPC2: Scalable, Robust World Models for Continuous Control

October 25, 2023
Autores: Nicklas Hansen, Hao Su, Xiaolong Wang
cs.AI

Resumo

O TD-MPC é um algoritmo de aprendizado por reforço (RL) baseado em modelo que realiza otimização local de trajetórias no espaço latente de um modelo de mundo implícito (sem decodificador) aprendido. Neste trabalho, apresentamos o TD-MPC2: uma série de melhorias em relação ao algoritmo TD-MPC. Demonstramos que o TD-MPC2 apresenta avanços significativos em relação às linhas de base em 104 tarefas de RL online, abrangendo 4 domínios de tarefas diversos, alcançando resultados consistentemente fortes com um único conjunto de hiperparâmetros. Além disso, mostramos que as capacidades do agente aumentam com o tamanho do modelo e dos dados, e treinamos com sucesso um único agente com 317 milhões de parâmetros para executar 80 tarefas em múltiplos domínios de tarefas, embodiamentos e espaços de ação. Concluímos com uma análise das lições, oportunidades e riscos associados a agentes TD-MPC2 de grande escala. Explore vídeos, modelos, dados, códigos e mais em https://nicklashansen.github.io/td-mpc2.
English
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://nicklashansen.github.io/td-mpc2
PDF80December 14, 2025