ChatPaper.aiChatPaper

Capitano Safari: Un Motore Mondiale

Captain Safari: A World Engine

November 28, 2025
Autori: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

Abstract

I motori mondiali mirano a sintetizzare video lunghi e 3D-consistenti che supportino l'esplorazione interattiva di una scena sotto un movimento della camera controllato dall'utente. Tuttavia, i sistemi esistenti faticano con traiettorie 6-DoF aggressive e layout esterni complessi: perdono coerenza geometrica a lungo raggio, deviano dal percorso target o collassano in un movimento eccessivamente conservativo. A tal fine, introduciamo Captain Safari, un motore mondiale condizionato dalla posa che genera video recuperando informazioni da una memoria mondiale persistente. Dato un percorso della camera, il nostro metodo mantiene una memoria locale dinamica e utilizza un retriever per recuperare token mondiali allineati alla posa, che poi condizionano la generazione del video lungo la traiettoria. Questo design permette al modello di mantenere una struttura 3D stabile mentre esegue accuratamente manovre complesse della camera. Per valutare questo scenario, abbiamo curato OpenSafari, un nuovo dataset FPV in-the-wild contenente video dinamici ripresi da droni con traiettorie verificate, costruito attraverso una pipeline di validazione geometrica e cinematica multi-stadio. In termini di qualità video, coerenza 3D e aderenza alla traiettoria, Captain Safari supera sostanzialmente i generatori controllati da camera allo stato dell'arte. Riduce il MEt3R da 0.3703 a 0.3690, migliora l'AUC@30 da 0.181 a 0.200 e produce un FVD sostanzialmente inferiore rispetto a tutti i baseline controllati da camera. Ancora più importante, in uno studio umano con 50 partecipanti e 5 modelli, in cui gli annotatori selezionano il miglior risultato tra cinque modelli anonimi, il 67.6% delle preferenze favorisce il nostro metodo su tutti gli assi. I nostri risultati dimostrano che la memoria mondiale condizionata dalla posa è un meccanismo potente per la generazione di video controllabile a lungo orizzonte e forniscono OpenSafari come un nuovo benchmark impegnativo per la futura ricerca sui motori mondiali.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF71December 2, 2025