Diffusie Wereldmodel
Diffusion World Model
February 5, 2024
Auteurs: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI
Samenvatting
We introduceren het Diffusion World Model (DWM), een conditioneel diffusiemodel dat in staat is om meerdere toekomstige toestanden en beloningen gelijktijdig te voorspellen. In tegenstelling tot traditionele één-stap dynamische modellen, biedt DWM langetermijnvoorspellingen in een enkele voorwaartse pass, waardoor de noodzaak voor recursieve queries wordt geëlimineerd. We integreren DWM in modelgebaseerde waardeschatting, waarbij het kortetermijnrendement wordt gesimuleerd door toekomstige trajecten die uit DWM worden bemonsterd. In de context van offline reinforcement learning kan DWM worden gezien als een conservatieve waarderegularisatie via generatief modelleren. Alternatief kan het worden beschouwd als een databron die offline Q-learning met synthetische data mogelijk maakt. Onze experimenten op de D4RL-dataset bevestigen de robuustheid van DWM voor langetermijnsimulatie. Wat betreft absolute prestaties overtreft DWM één-stap dynamische modellen aanzienlijk met een prestatieverbetering van 44%, en behaalt het state-of-the-art prestaties.
English
We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
quires. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a 44% performance gain, and achieves
state-of-the-art performance.