拡散世界モデル
Diffusion World Model
February 5, 2024
著者: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
cs.AI
要旨
我々は、複数ステップの将来状態と報酬を同時に予測可能な条件付き拡散モデルであるDiffusion World Model (DWM)を提案する。従来の1ステップ動的モデルとは異なり、DWMは単一のフォワードパスで長期的な予測を可能とし、再帰的なクエリを不要とする。我々はDWMをモデルベースの価値推定に統合し、DWMからサンプリングされた将来軌跡を用いて短期リターンをシミュレートする。オフライン強化学習の文脈では、DWMは生成モデリングを通じた保守的な価値正則化と見なすことができる。あるいは、合成データを用いたオフラインQ学習を可能にするデータソースと見なすこともできる。D4RLデータセットでの実験により、DWMの長期的シミュレーションに対する堅牢性が確認された。絶対性能において、DWMは1ステップ動的モデルを44%の性能向上で大幅に上回り、最先端の性能を達成した。
English
We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
quires. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a 44% performance gain, and achieves
state-of-the-art performance.