ChatPaper.aiChatPaper

Capitão Safari: Um Motor do Mundo

Captain Safari: A World Engine

November 28, 2025
Autores: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

Resumo

Os motores de mundo visam sintetizar vídeos longos e 3D consistentes que suportem a exploração interativa de uma cena sob movimento de câmera controlado pelo utilizador. No entanto, os sistemas existentes lutam com trajetórias 6-DoF agressivas e layouts complexos ao ar livre: eles perdem coerência geométrica de longo alcance, desviam-se do caminho pretendido ou colapsam em movimentos excessivamente conservadores. Para tal, introduzimos o Captain Safari, um motor de mundo condicionado por pose que gera vídeos através da recuperação de uma memória mundial persistente. Dado um caminho de câmera, o nosso método mantém uma memória local dinâmica e utiliza um recuperador para buscar tokens mundiais alinhados com a pose, que depois condicionam a geração de vídeo ao longo da trajetória. Este projeto permite que o modelo mantenha uma estrutura 3D estável enquanto executa com precisão manobras de câmera desafiadoras. Para avaliar este cenário, compilamos o OpenSafari, um novo conjunto de dados FPV em ambiente real que contém vídeos de drone de alta dinâmica com trajetórias de câmera verificadas, construído através de um pipeline de validação geométrica e cinemática multiestágio. Em qualidade de vídeo, consistência 3D e seguimento de trajetória, o Captain Safari supera substancialmente os geradores controlados por câmera state-of-the-art. Reduz o MEt3R de 0,3703 para 0,3690, melhora o AUC@30 de 0,181 para 0,200 e produz um FVD substancialmente inferior a todas as linhas de base controladas por câmera. Mais importante, num estudo humano com 50 participantes e 5 vias, onde anotadores selecionam o melhor resultado entre cinco modelos anonimizados, 67,6% das preferências favorecem o nosso método em todos os eixos. Os nossos resultados demonstram que a memória mundial condicionada por pose é um mecanismo poderoso para a geração de vídeo de longo horizonte e controlável, e disponibilizamos o OpenSafari como um novo e desafiador benchmark para futuras pesquisas em motores de mundo.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF112March 7, 2026