WorldCam: Mondi di Gioco 3D Interattivi e Autoregressivi con la Posa della Fotocamera come Rappresentazione Geometrica Unificante

Abstract

I recenti progressi nei transformer di diffusione video hanno abilitato modelli di mondi ludici interattivi che consentono agli utenti di esplorare ambienti generati su orizzonti temporali estesi. Tuttavia, gli approcci esistenti faticano a garantire un controllo d'azione preciso e una coerenza 3D a lungo termine. La maggior parte dei lavori precedenti tratta le azioni utente come segnali di condizionamento astratti, trascurando l'accoppiamento geometrico fondamentale tra le azioni e il mondo 3D, per cui le azioni inducono movimenti relativi della telecamera che si accumulano in una posa globale della telecamera all'interno di un mondo 3D. In questo articolo, stabiliamo la posa della telecamera come rappresentazione geometrica unificante per ancorare congiuntamente il controllo d'azione immediato e la coerenza 3D a lungo termine. In primo luogo, definiamo uno spazio d'azione continuo basato sulla fisica e rappresentiamo gli input utente nell'algebra di Lie per derivare precise pose della telecamera a 6 gradi di libertà, che vengono iniettate nel modello generativo tramite un incorporatore di telecamera per garantire un allineamento accurato delle azioni. In secondo luogo, utilizziamo le pose globali della telecamera come indici spaziali per recuperare osservazioni passate rilevanti, consentendo una rivisitazione geometricamente coerente delle località durante la navigazione a lungo termine. Per supportare questa ricerca, introduciamo un dataset su larga scala comprendente 3.000 minuti di gameplay umano autentico, annotato con traiettorie della telecamera e descrizioni testuali. Esperimenti estensivi dimostrano che il nostro approccio supera sostanzialmente i modelli di mondi ludici interattivi allo stato dell'arte in termini di controllabilità delle azioni, qualità visiva a lungo termine e coerenza spaziale 3D.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam: Mondi di Gioco 3D Interattivi e Autoregressivi con la Posa della Fotocamera come Rappresentazione Geometrica Unificante

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Abstract

Support