ChatPaper.aiChatPaper

Capitaine Safari : Un Moteur du Monde

Captain Safari: A World Engine

November 28, 2025
papers.authors: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

papers.abstract

Les moteurs de monde visent à synthétiser des vidéos longues et 3D-consistantes permettant l'exploration interactive d'une scène selon un mouvement de caméra contrôlé par l'utilisateur. Cependant, les systèmes existants peinent à gérer les trajectoires 6-DoF agressives et les configurations extérieures complexes : ils perdent la cohérence géométrique à longue portée, dévient de la trajectoire cible ou s'effondrent en un mouvement excessivement conservateur. Pour pallier cela, nous présentons Captain Safari, un moteur de monde conditionné par la pose qui génère des vidéos en effectuant des requêtes dans une mémoire mondiale persistante. Étant donné une trajectoire de caméra, notre méthode maintient une mémoire locale dynamique et utilise un système de récupération pour extraire des tokens mondiaux alignés sur la pose, qui conditionnent ensuite la génération vidéo le long de la trajectoire. Cette conception permet au modèle de maintenir une structure 3D stable tout en exécutant avec précision des manœuvres de caméra complexes. Pour évaluer ce cadre, nous constituons OpenSafari, un nouveau jeu de données FPV en conditions réelles contenant des vidéos de drone à haute dynamique avec des trajectoires de caméra vérifiées, construit via un pipeline de validation géométrique et cinématique en plusieurs étapes. En termes de qualité vidéo, de cohérence 3D et de suivi de trajectoire, Captain Safari surpasse substantiellement les générateurs contrôlés par caméra de l'état de l'art. Il réduit le MEt3R de 0,3703 à 0,3690, améliore l'AUC@30 de 0,181 à 0,200 et produit un FVD nettement inférieur à toutes les méthodes de référence. Plus important encore, dans une étude humaine à 50 participants et 5 modèles où les annotateurs sélectionnent le meilleur résultat parmi cinq modèles anonymisés, 67,6 % des préférences favorisent notre méthode sur tous les axes. Nos résultats démontrent que la mémoire mondiale conditionnée par la pose est un mécanisme puissant pour la génération vidéo contrôlée à long terme et proposent OpenSafari comme un nouveau benchmark exigeant pour la recherche future sur les moteurs de monde.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF71December 2, 2025