DINO-WM: 事前学習された視覚特徴を利用したWorld Modelsによるゼロショットプランニング

要旨

制御アクションを与えられた場合に将来の結果を予測する能力は、物理的な推論において基本的です。しかしながら、このような予測モデル、一般的にはワールドモデルと呼ばれるものは、学習が難しく、通常はオンラインポリシー学習向けに特定のタスク用のソリューションとして開発されています。我々は、ワールドモデルの真の潜在能力は、受動的なデータのみを用いて多様な問題に対して推論や計画を行う能力にあると主張します。具体的には、ワールドモデルには以下の3つの特性を持たせることが求められます：1）オフラインで収集された軌跡で学習可能であること、2）テスト時の振る舞い最適化をサポートすること、3）タスクに依存しない推論を促進すること。このために、我々はDINOワールドモデル（DINO-WM）を提案します。これは、視覚のダイナミクスを再構築することなくモデル化する新しい手法です。DINO-WMは、DINOv2で事前にトレーニングされた空間パッチ特徴を活用し、オフラインの行動軌跡から未来のパッチ特徴を予測することで学習します。この設計により、DINO-WMは、行動シーケンスの最適化を通じて観察目標を達成し、目標とするパッチ特徴を予測ターゲットとして扱うことで、タスクに依存しない振る舞い計画を容易にします。我々は、迷路ナビゲーション、テーブルトップ押し、および粒子操作を含むさまざまなドメインでDINO-WMを評価します。実験結果は、DINO-WMが専門家のデモンストレーション、報酬モデリング、または事前に学習された逆モデルに依存せずに、テスト時にゼロショットの行動ソリューションを生成できることを示しています。特筆すべきは、DINO-WMが従来の最先端の研究に比べて強力な汎化能力を示し、任意に構成された迷路、さまざまなオブジェクト形状を持つ押し操作、および複数の粒子シナリオなど、多様なタスクファミリーに適応できることです。

English

The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.