ChatPaper.aiChatPaper

Капитан Сафари: Мировой Движитель

Captain Safari: A World Engine

November 28, 2025
Авторы: Yu-Cheng Chou, Xingrui Wang, Yitong Li, Jiahao Wang, Hanting Liu, Cihang Xie, Alan Yuille, Junfei Xiao
cs.AI

Аннотация

Системы мирового моделирования (world engines) стремятся синтезировать длинные, 3D-согласованные видео, поддерживающие интерактивное исследование сцены при управляемом пользователем движении камеры. Однако существующие системы испытывают трудности при агрессивных 6-DoF траекториях и сложных сценах на открытом пространстве: они теряют геометрическую согласованность на больших расстояниях, отклоняются от целевого пути или вырождаются в излишне консервативное движение. Для решения этой проблемы мы представляем Captain Safari — систему мирового моделирования, управляемую позой камеры, которая генерирует видео, извлекая данные из постоянной памяти мира. Для заданного пути камеры наш метод поддерживает динамическую локальную память и использует механизм извлечения для получения токенов мира, выровненных по позе, которые затем используются для управления генерацией видео вдоль траектории. Такой подход позволяет модели сохранять стабильную 3D-структуру, точно выполняя сложные маневры камеры. Для оценки в этом сценарии мы создали OpenSafari — новый набор данных от первого лица (FPV) из реальных условий, содержащий высокодинамичные видеозаписи с дронов с проверенными траекториями камер, построенный с помощью многоступенчатого конвейера геометрической и кинематической валидации. По показателям качества видео, 3D-согласованности и следования траектории Captain Safari существенно превосходит современные генераторы с управлением камерой. Метод снижает показатель MEt3R с 0,3703 до 0,3690, улучшает AUC@30 с 0,181 до 0,200 и демонстрирует значительно более низкий FVD, чем все базовые методы с управлением камерой. Что более важно, в 5-стороннем исследовании с участием 50 человек, где аннотаторы выбирали лучший результат среди пяти анонимных моделей, 67,6% предпочтений были отданы нашему методу по всем осям оценки. Наши результаты демонстрируют, что управляемая позой память мира является мощным механизмом для генерации управляемого видео на длинных горизонтах, и мы представляем OpenSafari в качестве новой сложной контрольной точки для будущих исследований в области мирового моделирования.
English
World engines aim to synthesize long, 3D-consistent videos that support interactive exploration of a scene under user-controlled camera motion. However, existing systems struggle under aggressive 6-DoF trajectories and complex outdoor layouts: they lose long-range geometric coherence, deviate from the target path, or collapse into overly conservative motion. To this end, we introduce Captain Safari, a pose-conditioned world engine that generates videos by retrieving from a persistent world memory. Given a camera path, our method maintains a dynamic local memory and uses a retriever to fetch pose-aligned world tokens, which then condition video generation along the trajectory. This design enables the model to maintain stable 3D structure while accurately executing challenging camera maneuvers. To evaluate this setting, we curate OpenSafari, a new in-the-wild FPV dataset containing high-dynamic drone videos with verified camera trajectories, constructed through a multi-stage geometric and kinematic validation pipeline. Across video quality, 3D consistency, and trajectory following, Captain Safari substantially outperforms state-of-the-art camera-controlled generators. It reduces MEt3R from 0.3703 to 0.3690, improves AUC@30 from 0.181 to 0.200, and yields substantially lower FVD than all camera-controlled baselines. More importantly, in a 50-participant, 5-way human study where annotators select the best result among five anonymized models, 67.6% of preferences favor our method across all axes. Our results demonstrate that pose-conditioned world memory is a powerful mechanism for long-horizon, controllable video generation and provide OpenSafari as a challenging new benchmark for future world-engine research.
PDF71December 2, 2025