Modèle de Monde par Diffusion
Diffusion World Model
February 5, 2024
Auteurs: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI
Résumé
Nous présentons le Diffusion World Model (DWM), un modèle de diffusion conditionnelle capable de prédire simultanément les états futurs multi-étapes et les récompenses. Contrairement aux modèles dynamiques traditionnels à un seul pas, DWM offre des prédictions à long horizon en une seule passe avant, éliminant ainsi le besoin de requêtes récursives. Nous intégrons DWM dans l'estimation de valeur basée sur un modèle, où le rendement à court terme est simulé par des trajectoires futures échantillonnées à partir de DWM. Dans le contexte de l'apprentissage par renforcement hors ligne, DWM peut être vu comme une régularisation conservatrice de la valeur à travers la modélisation générative. Alternativement, il peut être considéré comme une source de données permettant l'apprentissage Q hors ligne avec des données synthétiques. Nos expériences sur le jeu de données D4RL confirment la robustesse de DWM à la simulation à long horizon. En termes de performance absolue, DWM surpasse significativement les modèles dynamiques à un seul pas avec un gain de performance de 44 %, et atteint des performances de pointe.
English
We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
quires. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a 44% performance gain, and achieves
state-of-the-art performance.