MoVerse: Modelado de Mundo de Video en Tiempo Real con Andamio Gaussiano Panorámico

Resumen

Presentamos MoVerse, un modelo de video-mundo en tiempo real que crea una escena navegable interactivamente a partir de una única imagen de campo de visión estrecho. Este escenario es desafiante porque la entrada observa solo una pequeña fracción del entorno, mientras que la exploración interactiva requiere un mundo circundante completo, geometría persistente, movimiento de cámara controlable y observaciones de alta fidelidad temporalmente coherentes. MoVerse aborda este problema separando la construcción del mundo de la representación de la observación. Primero expande la entrada a un panorama de 360° alineado con la gravedad mediante difusión consciente de la topología, cerrando el campo de visión faltante antes del razonamiento 3D. Luego, eleva el panorama a un andamiaje gaussiano 3D persistente usando predicción residual panorámica consciente de la geometría, obteniendo una memoria espacial densa y directamente renderizable. Finalmente, un renderizador de video condicionado por gaussianos traduce las representaciones del andamiaje a lo largo de trayectorias de cámara especificadas por el usuario en video fotorrealista. Para hacer que este renderizador sea práctico para la interacción, entrenamos un profesor de difusión bidireccional para renderizado condicional de alta calidad y lo destilamos en un estudiante autorregresivo causal para streaming con latencia acotada. Este diseño combina la controlabilidad y consistencia a largo alcance de las representaciones 3D explícitas con la calidad perceptual de los modelos de video generativos. MoVerse admite la exploración de escenas en tiempo real a 8 FPS en una sola GPU NVIDIA RTX 4090, demostrando un camino práctico hacia la creación de mundos a partir de una sola imagen con salida de video interactiva.

English

We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360^circ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.