Modèle de Monde par Diffusion

papers.abstract

Nous présentons le Diffusion World Model (DWM), un modèle de diffusion conditionnelle capable de prédire simultanément les états futurs multi-étapes et les récompenses. Contrairement aux modèles dynamiques traditionnels à un seul pas, DWM offre des prédictions à long horizon en une seule passe avant, éliminant ainsi le besoin de requêtes récursives. Nous intégrons DWM dans l'estimation de valeur basée sur un modèle, où le rendement à court terme est simulé par des trajectoires futures échantillonnées à partir de DWM. Dans le contexte de l'apprentissage par renforcement hors ligne, DWM peut être vu comme une régularisation conservatrice de la valeur à travers la modélisation générative. Alternativement, il peut être considéré comme une source de données permettant l'apprentissage Q hors ligne avec des données synthétiques. Nos expériences sur le jeu de données D4RL confirment la robustesse de DWM à la simulation à long horizon. En termes de performance absolue, DWM surpasse significativement les modèles dynamiques à un seul pas avec un gain de performance de 44 %, et atteint des performances de pointe.

English

We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive quires. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a 44% performance gain, and achieves state-of-the-art performance.