Diffusions-Weltmodell
Diffusion World Model
February 5, 2024
Autoren: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI
Zusammenfassung
Wir stellen das Diffusion World Model (DWM) vor, ein bedingtes Diffusionsmodell, das in der Lage ist, mehrstufige zukünftige Zustände und Belohnungen gleichzeitig vorherzusagen. Im Gegensatz zu traditionellen einstufigen Dynamikmodellen bietet DWM Langzeitvorhersagen in einem einzigen Vorwärtsdurchlauf, wodurch die Notwendigkeit rekursiver Abfragen entfällt. Wir integrieren DWM in die modellbasierte Werteinschätzung, bei der die kurzfristige Rendite durch zukünftige Trajektorien simuliert wird, die aus DWM abgetastet werden. Im Kontext des Offline-Reinforcement-Learnings kann DWM als eine konservative Wertregularisierung durch generatives Modellieren betrachtet werden. Alternativ kann es als Datenquelle angesehen werden, die Offline-Q-Learning mit synthetischen Daten ermöglicht. Unsere Experimente mit dem D4RL-Datensatz bestätigen die Robustheit von DWM bei der Langzeitsimulation. In Bezug auf die absolute Leistung übertrifft DWM einstufige Dynamikmodelle deutlich mit einem Leistungsgewinn von 44 % und erreicht state-of-the-art Leistung.
English
We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
quires. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a 44% performance gain, and achieves
state-of-the-art performance.