Capitán Safari: Un Motor del Mundo
Captain Safari: A World Engine
November 28, 2025
Autores: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI
Resumen
Los motores de mundo buscan sintetizar videos largos y 3D-consistentes que permitan la exploración interactiva de una escena bajo movimientos de cámara controlados por el usuario. Sin embargo, los sistemas existentes tienen dificultades con trayectorias agresivas de 6 grados de libertad y diseños complejos en exteriores: pierden coherencia geométrica a larga distancia, se desvían de la trayectoria objetivo o colapsan en movimientos excesivamente conservadores. Para abordar esto, presentamos Captain Safari, un motor de mundo condicionado por pose que genera videos recuperando información de una memoria mundial persistente. Dada una trayectoria de cámara, nuestro método mantiene una memoria local dinámica y utiliza un recuperador para obtener tokens mundiales alineados con la pose, los cuales condicionan luego la generación de video a lo largo de la trayectoria. Este diseño permite al modelo mantener una estructura 3D estable mientras ejecuta con precisión maniobras de cámara desafiantes. Para evaluar este escenario, hemos creado OpenSafari, un nuevo conjunto de datos FPV en entornos naturales que contiene videos dinámicos de drones con trayectorias de cámara verificadas, construido mediante una canalización de validación geométrica y cinemática en múltiples etapas. En cuanto a calidad de video, consistencia 3D y seguimiento de trayectoria, Captain Safari supera sustancialmente a los generadores controlados por cámara más avanzados. Reduce MEt3R de 0.3703 a 0.3690, mejora AUC@30 de 0.181 a 0.200 y produce un FVD significativamente menor que todas las líneas base controladas por cámara. Más importante aún, en un estudio humano con 50 participantes y 5 opciones, donde los anotadores seleccionan el mejor resultado entre cinco modelos anónimos, el 67.6% de las preferencias favorecen a nuestro método en todos los ejes. Nuestros resultados demuestran que la memoria mundial condicionada por pose es un mecanismo poderoso para la generación de video controlable a largo plazo y ofrecemos OpenSafari como un nuevo y desafiante punto de referencia para la futura investigación en motores de mundo.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.