Modello Mondiale a Diffusione
Diffusion World Model
February 5, 2024
Autori: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI
Abstract
Presentiamo il Diffusion World Model (DWM), un modello di diffusione condizionale in grado di prevedere contemporaneamente stati futuri multistep e ricompense. A differenza dei tradizionali modelli dinamici a un passo, DWM offre previsioni a lungo orizzonte in un singolo passaggio in avanti, eliminando la necessità di query ricorsive. Integriamo DWM nella stima del valore basata su modelli, dove il rendimento a breve termine viene simulato da traiettorie future campionate da DWM. Nel contesto del reinforcement learning offline, DWM può essere visto come una regolarizzazione conservativa del valore attraverso la modellazione generativa. In alternativa, può essere considerato come una fonte di dati che abilita l'apprendimento Q offline con dati sintetici. I nostri esperimenti sul dataset D4RL confermano la robustezza di DWM nella simulazione a lungo orizzonte. In termini di prestazioni assolute, DWM supera significativamente i modelli dinamici a un passo con un guadagno di prestazioni del 44% e raggiunge prestazioni all'avanguardia.
English
We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
quires. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a 44% performance gain, and achieves
state-of-the-art performance.