MagicWorld: インタラクティブな幾何学駆動によるビデオワールド探索
MagicWorld: Interactive Geometry-driven Video World Exploration
November 24, 2025
著者: Guangyuan Li, Siming Zheng, Shuolin Xu, Jinwei Chen, Bo Li, Xiaobin Hu, Lei Zhao, Peng-Tao Jiang
cs.AI
要旨
近年のインタラクティブ動画ワールドモデル手法は、ユーザー指示に条件付けられたシーン進化を生成する。これらは印象的な結果を達成しているが、2つの重要な限界が残っている。第一に、指示駆動型のシーン運動と基盤となる3Dジオメトリとの対応関係を十分に活用できておらず、視点変更時の構造的不安定性を招いている。第二に、多段階インタラクション中に履歴情報を容易に忘却するため、誤差蓄積やシーン意味論・構造の漸進的ドリフトが生じる。これらの課題解決に向け、我々は3D幾何学事前情報と履歴検索を統合したインタラクティブ動画ワールドモデルMagicWorldを提案する。MagicWorldは単一シーン画像から出発し、ユーザー行動で動的シーン進化を駆動し、自己回帰的に連続シーンを合成する。我々は行動誘導型3Dジオメトリモジュール(AG3D)を導入し、各インタラクションの初フレームと対応する行動から点群を構築することで、視点遷移に対する明示的幾何学的制約を提供し、構造的一貫性を向上させる。さらに、生成中に関連する履歴フレームを検索し、条件付け信号として注入する履歴キャッシュ検索(HCR)機構を提案し、モデルが過去のシーン情報を利用し誤差蓄積を緩和することを支援する。実験結果により、MagicWorldがインタラクション反復におけるシーン安定性と連続性で顕著な改善を達成することを実証する。
English
Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.