ChatPaper.aiChatPaper

キャプテン・サファリ:ワールドエンジン

Captain Safari: A World Engine

November 28, 2025
著者: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

要旨

World Engineは、ユーザー制御下のカメラ運動によるシーンのインタラクティブな探索を可能にする、長尺で3D一貫性のあるビデオの合成を目指す。しかし、既存システムは積極的な6自由度軌道や複雑な屋外シーンでは、長距離の幾何学的一貫性の喪失、目標経路からの逸脱、あるいは過度に保守的な運動への退行といった課題に直面する。この問題に対処するため、我々は永続的なワールドメモリからの検索によりビデオを生成する、姿勢条件付きWorld EngineであるCaptain Safariを提案する。本手法は、与えられたカメラ経路に対して動的ローカルメモリを維持し、リトリーバーを用いて姿勢に整合したワールドトークンを取得し、それらを以て軌道に沿ったビデオ生成を条件付ける。この設計により、モデルは安定した3D構造を維持しつつ、挑戦的なカメラ操作を正確に実行できる。この設定を評価するため、多段階の幾何学的・運動学的検証パイプラインを経て構築された、検証済みカメラ軌道を伴う高ダイナミックなドローンビデオを含む新規実環境FPVデータセットOpenSafariを整備した。ビデオ品質、3D一貫性、軌道追従性の全ての指標において、Captain Safariはカメラ制御型生成の現状最先端手法を大幅に上回る。MEt3Rを0.3703から0.3690に低減し、AUC@30を0.181から0.200に改善し、全てのカメラ制御ベースラインよりも大幅に低いFVDを達成した。さらに重要なことに、5つの匿名化されたモデルから最良の結果を選択する50名参加の5者間人間評価では、全評価軸において67.6%の選好が本手法に集まった。本結果は、姿勢条件付きワールドメモリが長期的で制御可能なビデオ生成のための強力なメカニズムであることを示し、OpenSafariは将来のWorld Engine研究のための挑戦的な新たなベンチマークを提供する。
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF71December 2, 2025