ChatPaper.aiChatPaper

Modelo de Mundo de Difusión

Diffusion World Model

February 5, 2024
Autores: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI

Resumen

Presentamos el Modelo de Mundo de Difusión (DWM, por sus siglas en inglés), un modelo de difusión condicional capaz de predecir estados futuros y recompensas en múltiples pasos de manera concurrente. A diferencia de los modelos dinámicos tradicionales de un solo paso, DWM ofrece predicciones a largo horizonte en una única pasada hacia adelante, eliminando la necesidad de consultas recursivas. Integramos DWM en la estimación de valores basada en modelos, donde el retorno a corto plazo se simula mediante trayectorias futuras muestreadas desde DWM. En el contexto del aprendizaje por refuerzo offline, DWM puede verse como una regularización conservadora de valores a través de modelado generativo. Alternativamente, puede considerarse como una fuente de datos que permite el aprendizaje Q offline con datos sintéticos. Nuestros experimentos en el conjunto de datos D4RL confirman la robustez de DWM para la simulación a largo horizonte. En términos de rendimiento absoluto, DWM supera significativamente a los modelos dinámicos de un solo paso con una mejora del 44% en el rendimiento y logra un rendimiento de vanguardia.
English
We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive quires. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a 44% performance gain, and achieves state-of-the-art performance.
PDF81December 15, 2024