ChatPaper.aiChatPaper

Captain Safari: Eine Weltmaschine

Captain Safari: A World Engine

November 28, 2025
papers.authors: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

papers.abstract

World Engines zielen darauf ab, lange, 3D-konsistente Videos zu synthetisieren, die die interaktive Erkundung einer Szene unter benutzergesteuerter Kamerabewegung ermöglichen. Bestehende Systeme haben jedoch Schwierigkeiten mit aggressiven 6-DoF-Trajektorien und komplexen Außenbereichslayouts: Sie verlieren die geometrische Kohärenz über große Entfernungen, weichen vom Zielpfad ab oder kollabieren in eine zu konservative Bewegung. Zu diesem Zweck stellen wir Captain Safari vor, eine posen-konditionierte World Engine, die Videos durch Abruf aus einem persistenten Weltgedächtnis generiert. Bei gegebenem Kamerapfad verwaltet unsere Methode einen dynamischen lokalen Speicher und nutzt einen Retriever, um posen-ausgerichtete Welt-Tokens abzurufen, die dann die Videogenerierung entlang der Trajektorie konditionieren. Dieser Entwurf ermöglicht es dem Modell, eine stabile 3D-Struktur beizubehalten und gleichzeitig anspruchsvolle Kameramanöver präzise auszuführen. Um diese Einstellung zu evaluieren, haben wir OpenSafari kuratiert, einen neuen In-the-Wild-FPV-Datensatz, der hochdynamische Drohnenvideos mit verifizierten Kameratrajektorien enthält und durch eine mehrstufige Pipeline zur geometrischen und kinematischen Validierung erstellt wurde. In den Bereichen Videoqualität, 3D-Konsistenz und Trajektorienfolge übertrifft Captain Safari state-of-the-art kameragesteuerte Generatoren erheblich. Es reduziert MEt3R von 0,3703 auf 0,3690, verbessert AUC@30 von 0,181 auf 0,200 und erzielt einen deutlich niedrigeren FVD als alle kameragesteuerten Baselines. Noch wichtiger ist, dass in einer 50-teilnehmenden, 5-fach menschlichen Studie, bei der Annotatoren das beste Ergebnis unter fünf anonymisierten Modellen auswählen, 67,6 % der Präferenzen unsere Methode über alle Achsen hinweg begünstigen. Unsere Ergebnisse demonstrieren, dass posen-konditioniertes Weltgedächtnis ein leistungsstarker Mechanismus für langfristige, steuerbare Videogenerierung ist, und bieten OpenSafari als herausfordernden neuen Benchmark für die zukünftige World-Engine-Forschung.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF71December 2, 2025