Modelo de Mundo de Difusión

Resumen

Presentamos el Modelo de Mundo de Difusión (DWM, por sus siglas en inglés), un modelo de difusión condicional capaz de predecir estados futuros y recompensas en múltiples pasos de manera concurrente. A diferencia de los modelos dinámicos tradicionales de un solo paso, DWM ofrece predicciones a largo horizonte en una única pasada hacia adelante, eliminando la necesidad de consultas recursivas. Integramos DWM en la estimación de valores basada en modelos, donde el retorno a corto plazo se simula mediante trayectorias futuras muestreadas desde DWM. En el contexto del aprendizaje por refuerzo offline, DWM puede verse como una regularización conservadora de valores a través de modelado generativo. Alternativamente, puede considerarse como una fuente de datos que permite el aprendizaje Q offline con datos sintéticos. Nuestros experimentos en el conjunto de datos D4RL confirman la robustez de DWM para la simulación a largo horizonte. En términos de rendimiento absoluto, DWM supera significativamente a los modelos dinámicos de un solo paso con una mejora del 44% en el rendimiento y logra un rendimiento de vanguardia.

English

We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive quires. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a 44% performance gain, and achieves state-of-the-art performance.