ChatPaper.aiChatPaper

Kapitein Safari: Een Wereldmotor

Captain Safari: A World Engine

November 28, 2025
Auteurs: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

Samenvatting

Wereldengines streven naar het synthetiseren van lange, 3D-consistente video's die interactieve verkenning van een scène onder door de gebruiker bestuurde camerabeweging ondersteunen. Bestaande systemen kampen echter met problemen onder agressieve 6-DoF-trajecten en complexe buitenopstellingen: ze verliezen grootschalige geometrische coherentie, wijken af van het doelpad of vervallen in overdreven conservatieve beweging. Daarom introduceren wij Captain Safari, een wereldengine met pose-conditionering die video's genereert door te putten uit een persistent wereldgeheugen. Gegeven een camerapad houdt onze methode een dynamisch lokaal geheugen bij en gebruikt een retriever om pose-uitgelijnde wereldtokens op te halen, die vervolgens de videogeneratie langs het traject conditioneren. Dit ontwerp stelt het model in staat een stabiele 3D-structuur te behouden en tegelijkertijd uitdagende camerabewegingen nauwkeurig uit te voeren. Om deze setting te evalueren, stellen we OpenSafari samen, een nieuwe in-the-wild FPV-dataset met hoogdynamische dronevideo's voorzien van geverifieerde cameratrajecten, opgebouwd via een pijplijn voor meervoudige geometrische en kinematische validatie. Op het gebied van videokwaliteit, 3D-consistentie en trajectvolging presteert Captain Safari aanzienlijk beter dan state-of-the-art cameragestuurde generators. Het reduceert MEt3R van 0.3703 naar 0.3690, verbetert AUC@30 van 0.181 naar 0.200, en resulteert in een aanzienlijk lagere FVD dan alle cameragestuurde baseline-methoden. Belangrijker nog, in een 50-deelnemers, 5-weg menselijke studie waarin annotatoren het beste resultaat kiezen uit vijf geanonimiseerde modellen, geeft 67.6% van de voorkeuren de voorkeur aan onze methode over alle assen. Onze resultaten tonen aan dat pose-gconditioneerd wereldgeheugen een krachtig mechanisme is voor langetermijn, bestuurbare videogeneratie en bieden OpenSafari aan als een uitdagende nieuwe benchmark voor toekomstig wereldengine-onderzoek.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF71December 2, 2025