Modelo de Mundo de Difusão
Diffusion World Model
February 5, 2024
Autores: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI
Resumo
Apresentamos o Modelo de Mundo por Difusão (DWM, na sigla em inglês), um modelo de difusão condicional capaz de prever estados e recompensas futuros em múltiplos passos de forma simultânea. Diferentemente dos modelos dinâmicos tradicionais de um único passo, o DWM oferece previsões de longo horizonte em uma única passagem direta, eliminando a necessidade de consultas recursivas. Integramos o DWM na estimativa de valor baseada em modelos, onde o retorno de curto prazo é simulado por trajetórias futuras amostradas a partir do DWM. No contexto do aprendizado por reforço offline, o DWM pode ser visto como uma regularização conservadora de valor por meio de modelagem generativa. Alternativamente, ele pode ser considerado uma fonte de dados que possibilita o aprendizado Q offline com dados sintéticos. Nossos experimentos no conjunto de dados D4RL confirmam a robustez do DWM para simulações de longo horizonte. Em termos de desempenho absoluto, o DWM supera significativamente os modelos dinâmicos de um único passo, com um ganho de desempenho de 44%, e alcança desempenho de ponta.
English
We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
quires. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a 44% performance gain, and achieves
state-of-the-art performance.