WorldCam: Mundos de Juego 3D Interactivos y Autoregresivos con la Pose de la Cámara como Representación Geométrica Unificadora

Resumen

Los recientes avances en transformadores de difusión de video han permitido el desarrollo de modelos de mundo para videojuegos interactivos que permiten a los usuarios explorar entornos generados durante horizontes temporales prolongados. Sin embargo, los enfoques existentes tienen dificultades con el control preciso de las acciones y la consistencia 3D a largo plazo. La mayoría de los trabajos anteriores tratan las acciones del usuario como señales de condicionamiento abstractas, pasando por alto el acoplamiento geométrico fundamental entre las acciones y el mundo 3D, por el cual las acciones inducen movimientos relativos de la cámara que se acumulan en una pose de cámara global dentro de un mundo 3D. En este artículo, establecemos la pose de la cámara como una representación geométrica unificadora para fundamentar conjuntamente el control de acciones inmediatas y la consistencia 3D a largo plazo. Primero, definimos un espacio de acción continuo basado en la física y representamos las entradas del usuario en el álgebra de Lie para derivar poses de cámara precisas de 6 grados de libertad, que se inyectan en el modelo generativo mediante un incorporador de cámara para garantizar una alineación precisa de la acción. En segundo lugar, utilizamos las poses globales de la cámara como índices espaciales para recuperar observaciones pasadas relevantes, permitiendo la revisión geométricamente consistente de ubicaciones durante la navegación de largo horizonte. Para respaldar esta investigación, presentamos un conjunto de datos a gran escala que comprende 3.000 minutos de juego humano auténtico anotado con trayectorias de cámara y descripciones textuales. Experimentos exhaustivos demuestran que nuestro enfoque supera sustancialmente a los modelos de mundo para videojuegos interactivos más avanzados en cuanto a capacidad de control de acciones, calidad visual a largo plazo y consistencia espacial 3D.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam: Mundos de Juego 3D Interactivos y Autoregresivos con la Pose de la Cámara como Representación Geométrica Unificadora

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Resumen

Support