Modelo de Mundo de Difusão

Resumo

Apresentamos o Modelo de Mundo por Difusão (DWM, na sigla em inglês), um modelo de difusão condicional capaz de prever estados e recompensas futuros em múltiplos passos de forma simultânea. Diferentemente dos modelos dinâmicos tradicionais de um único passo, o DWM oferece previsões de longo horizonte em uma única passagem direta, eliminando a necessidade de consultas recursivas. Integramos o DWM na estimativa de valor baseada em modelos, onde o retorno de curto prazo é simulado por trajetórias futuras amostradas a partir do DWM. No contexto do aprendizado por reforço offline, o DWM pode ser visto como uma regularização conservadora de valor por meio de modelagem generativa. Alternativamente, ele pode ser considerado uma fonte de dados que possibilita o aprendizado Q offline com dados sintéticos. Nossos experimentos no conjunto de dados D4RL confirmam a robustez do DWM para simulações de longo horizonte. Em termos de desempenho absoluto, o DWM supera significativamente os modelos dinâmicos de um único passo, com um ganho de desempenho de 44%, e alcança desempenho de ponta.

English

We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive quires. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a 44% performance gain, and achieves state-of-the-art performance.