WorldCam: Mundos de Jogo 3D Interativos e Autorregressivos com a Pose da Câmara como Representação Geométrica Unificadora

Resumo

Os recentes avanços em transformadores de difusão de vídeo permitiram a criação de modelos de mundo de jogos interativos que possibilitam aos usuários explorar ambientes gerados em horizontes temporais prolongados. No entanto, as abordagens existentes lutam com o controle preciso de ações e a consistência 3D de longo prazo. A maioria dos trabalhos anteriores trata as ações do usuário como sinais de condicionamento abstratos, negligenciando o acoplamento geométrico fundamental entre as ações e o mundo 3D, pelo qual as ações induzem movimentos relativos da câmera que se acumulam numa pose global da câmera dentro de um mundo 3D. Neste artigo, estabelecemos a pose da câmera como uma representação geométrica unificadora para fundamentar conjuntamente o controle de ação imediato e a consistência 3D de longo prazo. Primeiro, definimos um espaço de ação contínuo baseado na física e representamos as entradas do usuário na álgebra de Lie para derivar poses de câmera 6-DoF precisas, que são injetadas no modelo generativo via um incorporador de câmera para garantir um alinhamento preciso da ação. Segundo, usamos poses de câmera globais como índices espaciais para recuperar observações passadas relevantes, permitindo a revisitação geometricamente consistente de locais durante a navegação de longo prazo. Para apoiar esta pesquisa, introduzimos um conjunto de dados em larga escala composto por 3.000 minutos de jogabilidade humana autêntica, anotada com trajetórias de câmera e descrições textuais. Experimentos extensivos mostram que nossa abordagem supera substancialmente os modelos de mundo de jogos interativos state-of-the-art em controlabilidade de ações, qualidade visual de longo prazo e consistência espacial 3D.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam: Mundos de Jogo 3D Interativos e Autorregressivos com a Pose da Câmara como Representação Geométrica Unificadora

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Resumo

Support