캡틴 사파리: 세계 엔진
Captain Safari: A World Engine
November 28, 2025
저자: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI
초록
월드 엔진은 사용자 제어 카메라 운동 하에서 장면의 인터랙티브 탐색을 지원하는 긴 3D 일관성 비디오를 합성하는 것을 목표로 합니다. 그러나 기존 시스템은 공격적인 6자유도 궤적과 복잡한 실외 배경에서 어려움을 겪습니다: 장거리 기하학적 일관성을 잃거나, 목표 경로에서 이탈하거나, 지나치게 보수적인 운동으로 수렴합니다. 이를 위해 우리는 지속적인 월드 메모리에서 검색하여 비디오를 생성하는 포즈 조건 월드 엔진인 Captain Safari를 소개합니다. 주어진 카메라 경로에 대해 우리의 방법은 동적 로컬 메모리를 유지하고 검색기를 사용하여 포즈에 정렬된 월드 토큰을 가져온 다음, 이를 통해 궤적을 따라 비디오 생성을 조건화합니다. 이 설계는 모델이 안정적인 3D 구조를 유지하면서도 도전적인 카메라 기동을 정확하게 실행할 수 있게 합니다. 이 설정을 평가하기 위해 우리는 다단계 기하학적 및 운동학적 검증 파이프라인을 통해 구축된, 검증된 카메라 궤적을 가진 고다이내믹 드론 비디오를 포함하는 새로운 실제 환경 FPV 데이터셋인 OpenSafari를 정리했습니다. 비디오 품질, 3D 일관성 및 궤적 추종성 전반에 걸쳐 Captain Safari는 최첨단 카메라 제어 생성기를 크게 능가합니다. MEt3R를 0.3703에서 0.3690으로 줄이고, AUC@30를 0.181에서 0.200으로 향상시키며, 모든 카메라 제어 기준선보다 현저히 낮은 FVD를 보여줍니다. 더 중요하게는, 50명의 참가자가 5가지 익명 모델 중 최고의 결과를 선택하는 5방향 인간 평가에서 평가자들의 67.6%가 모든 측면에서 우리의 방법을 선호했습니다. 우리의 결과는 포즈 조건 월드 메모리가 장기간 제어 가능한 비디오 생성을 위한 강력한 메커니즘이며, OpenSafari가 향후 월드 엔진 연구를 위한 도전적인 새로운 벤치마크로 제공됨을 입증합니다.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.