WorldCam : Mondes de jeu 3D interactifs autorégressifs utilisant la pose de caméra comme représentation géométrique unificatrice

Résumé

Les récentes avancées dans les transformateurs de diffusion vidéo ont permis le développement de modèles de mondes de jeu interactifs permettant aux utilisateurs d'explorer des environnements générés sur de longues séquences. Cependant, les approches existantes peinent à assurer un contrôle d'action précis et une cohérence 3D à long terme. La plupart des travaux antérieurs traitent les actions utilisateur comme des signaux de conditionnement abstraits, négligeant le couplage géométrique fondamental entre les actions et le monde 3D, où les actions induisent des mouvements de caméra relatifs qui s'accumulent en une pose caméra globale dans un monde en trois dimensions. Dans cet article, nous établissons la pose caméra comme une représentation géométrique unificatrice pour ancrer conjointement le contrôle d'action immédiat et la cohérence 3D à long terme. Premièrement, nous définissons un espace d'action continu basé sur la physique et représentons les entrées utilisateur dans l'algèbre de Lie pour dériver des poses caméra 6-DoF précises, qui sont injectées dans le modèle génératif via un intégrateur de caméra pour garantir un alignement précis des actions. Deuxièmement, nous utilisons les poses caméra globales comme indices spatiaux pour récupérer les observations passées pertinentes, permettant une revisite géométriquement cohérente des lieux lors d'une navigation à long terme. Pour soutenir cette recherche, nous introduisons un jeu de données à grande échelle comprenant 3 000 minutes de gameplay humain authentique annotées avec des trajectoires de caméra et des descriptions textuelles. Des expériences approfondies montrent que notre approche surpasse substantiellement les modèles de mondes de jeu interactifs de pointe en matière de contrôlabilité des actions, de qualité visuelle à long terme et de cohérence spatiale 3D.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam : Mondes de jeu 3D interactifs autorégressifs utilisant la pose de caméra comme représentation géométrique unificatrice

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Résumé

Support