WorldCam: Interactieve Autoregressieve 3D-Spelwerelden met Camerapositie als Unificerende Geometrische Representatie

Samenvatting

Recente vooruitgang in videodiffusietransformers heeft interactieve gamingwereldmodellen mogelijk gemaakt die gebruikers in staat stellen gegenereerde omgevingen over langere tijdshorizons te verkennen. Bestaande methoden kampen echter met precieze actiebesturing en langdurige 3D-consistentie. De meeste eerdere werken behandelen gebruikersacties als abstracte conditioneringssignalen, waarbij de fundamentele geometrische koppeling tussen acties en de 3D-wereld over het hoofd wordt gezien: acties induceren relatieve camerabewegingen die zich opstapelen tot een globale camerapositie binnen een 3D-wereld. In dit artikel positioneren we camerapositie als een verenigende geometrische representatie om zowel directe actiebesturing als langetermijn-3D-consistentie gezamenlijk te verankeren. Ten eerste definiëren we een op de natuurkunde gebaseerde continue actieruimte en representeren we gebruikersinvoer in de Lie-algebra om precieze 6-DoF-cameraposities af te leiden, die via een camera-embedder in het generatieve model worden geïnjecteerd om nauwkeurige actie-uitlijning te garanderen. Ten tweede gebruiken we globale cameraposities als ruimtelijke indices om relevante eerdere observaties op te halen, waardoor geometrisch consistente herbezoeken aan locaties mogelijk wordt tijdens langdurige navigatie. Om dit onderzoek te ondersteunen, introduceren we een grootschalige dataset bestaande uit 3.000 minuten authentieke menselijke gameplay, geannoteerd met cameratrajecten en tekstuele beschrijvingen. Uitgebreide experimenten tonen aan dat onze aanpak state-of-the-art interactieve gamingwereldmodellen aanzienlijk overtreft in actiebestuurbaarheid, langetermijn-visuele kwaliteit en 3D-ruimtelijke consistentie.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam: Interactieve Autoregressieve 3D-Spelwerelden met Camerapositie als Unificerende Geometrische Representatie

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Samenvatting

Support