MoVerse : Modélisation vidéo du monde en temps réel avec échafaudage gaussien panoramique

Résumé

Nous présentons MoVerse, un modèle vidéo temps réel du monde (world model) qui crée une scène interactive navigable à partir d'une seule image à champ de vision étroit. Ce paramètre est difficile car l'entrée n'observe qu'une petite fraction de l'environnement, tandis que la navigation interactive nécessite un monde environnant complet, une géométrie persistante, un mouvement de caméra contrôlable et des observations haute-fidélité temporellement cohérentes. MoVerse aborde ce problème en séparant la construction du monde du rendu d'observation. Il étend d'abord l'entrée en un panorama 360° aligné avec la gravité via une diffusion consciente de la topologie, comblant le champ de vision manquant avant le raisonnement 3D. Il élève ensuite le panorama en un échafaudage gaussien 3D persistant à l'aide d'une prédiction résiduelle panoramique consciente de la géométrie, produisant une mémoire spatiale dense et directement rendable. Enfin, un moteur de rendu vidéo conditionné par les gaussiennes transforme les rendus de l'échafaudage le long de trajectoires de caméra spécifiées par l'utilisateur en vidéo photoréaliste. Pour rendre ce moteur de rendu pratique pour l'interaction, nous entraînons un enseignant par diffusion bidirectionnelle pour un rendu conditionnel de haute qualité et le distillons en un étudiant autorégressif causal pour un streaming à latence bornée. Cette conception combine la contrôlabilité et la cohérence à longue portée des représentations 3D explicites avec la qualité perceptuelle des modèles vidéo génératifs. MoVerse prend en charge la navigation en temps réel dans la scène à 8 FPS sur un seul GPU NVIDIA RTX 4090, démontrant une voie pratique vers la création de monde à partir d'une seule image avec une sortie vidéo interactive.

English

We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360^circ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.