幾何学的に考慮された回転位置埋め込みによる一貫性のあるビデオ世界モデル
Geometry-Aware Rotary Position Embedding for Consistent Video World Model
February 8, 2026
著者: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu
cs.AI
要旨
明示的なカメラ制御下で将来の観測をシミュレートする予測的世界モデルは、対話型AIの基盤である。急速な進展にもかかわらず、現在のシステムは空間的持続性を欠いており、長い軌跡にわたって安定したシーン構造を維持できず、カメラが過去に観測した位置を再訪した際に詳細を頻繁に幻覚する。この幾何学的ドリフトは、3D一貫性に必要な射影幾何学と矛盾するスクリーン空間位置埋め込みへの依存に起因することを明らかにした。我々はViewRopeを提案する。これはカメラ光線方向をビデオトランスフォーマーの自己注意層に直接注入する幾何学認識エンコーディングである。画素の局所性ではなく相対的光線幾何学で注意をパラメータ化することにより、ViewRopeは時間的隔たりを超えて3D一貫性のあるコンテンツを検索するためのモデル固有の帰納的バイアスを提供する。さらに、幾何学的手がかりを活用して関連する過去フレームを選択的に注意するGeometry-Aware Frame-Sparse Attentionを提案し、メモリ一貫性を犠牲にせずに効率を改善する。また、ループ閉鎖の忠実度と幾何学的ドリフトを測定する診断スイートViewBenchを提示する。結果は、ViewRopeが計算コストを削減しながら長期的な一貫性を大幅に改善することを実証している。
English
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.