WorldCam: Интерактивные авторегрессивные игровые миры в 3D, где позиция камеры служит унифицирующим геометрическим представлением

Аннотация

Последние достижения в области видео-диффузионных трансформеров позволили создать интерактивные игровые мировые модели, которые позволяют пользователям исследовать генерируемые среды в течение продолжительных временных горизонтов. Однако существующие подходы испытывают трудности с точным управлением действиями и 3D-согласованностью на длинных горизонтах. Большинство предыдущих работ рассматривают действия пользователя как абстрактные сигналы кондиционирования, упуская из виду фундаментальную геометрическую связь между действиями и 3D-миром, где действия вызывают относительные движения камеры, которые накапливаются в глобальную позицию камеры внутри 3D-мира. В данной работе мы устанавливаем позицию камеры в качестве унифицирующего геометрического представления для совместного обоснования непосредственного управления действиями и долгосрочной 3D-согласованности. Во-первых, мы определяем основанное на физике непрерывное пространство действий и представляем пользовательский ввод в алгебре Ли для получения точных 6-DoF позиций камеры, которые внедряются в генеративную модель через модуль кодирования камеры для обеспечения точного соответствия действий. Во-вторых, мы используем глобальные позиции камеры в качестве пространственных индексов для извлечения релевантных прошлых наблюдений, что позволяет геометрически согласованно возвращаться к локациям во время навигации на длинных горизонтах. Для поддержки этого исследования мы представляем крупномасштабный набор данных, содержащий 3000 минут аутентичного геймплея с аннотациями траекторий камеры и текстовых описаний. Многочисленные эксперименты показывают, что наш подход существенно превосходит современные интерактивные игровые мировые модели по управляемости действиями, визуальному качеству на длинных горизонтах и 3D-пространственной согласованности.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam: Интерактивные авторегрессивные игровые миры в 3D, где позиция камеры служит унифицирующим геометрическим представлением

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Аннотация

Support