MoVerse: Echtzeit-Video-Weltmodellierung mit panoramischem Gauß-Gerüst

Zusammenfassung

Wir stellen MoVerse vor, ein Echtzeit-Video-Weltmodell, das aus einem einzelnen Bild mit schmalem Sichtfeld eine interaktiv navigierbare Szene erzeugt. Diese Umgebung ist anspruchsvoll, da die Eingabe nur einen kleinen Teil der Umgebung erfasst, während interaktives Roaming eine vollständige umgebende Welt, persistente Geometrie, steuerbare Kamerabewegung und zeitlich kohärente Beobachtungen mit hoher Wiedergabetreue erfordert. MoVerse geht dieses Problem an, indem es die Welterstellung von der Beobachtungsdarstellung trennt. Zunächst erweitert es die Eingabe mithilfe topologiebewusster Diffusion in ein schwerkraftausgerichtetes 360-Grad-Panorama, um das fehlende Sichtfeld vor der 3D-Analyse zu schließen. Anschließend hebt es das Panorama mithilfe panoramischer geometriebewusster Residuum-Vorhersage in ein persistentes 3D-Gauß-Gerüst, was einen dichten und direkt darstellbaren räumlichen Speicher ergibt. Schließlich übersetzt ein gaußbedingter Videorenderer Gerüstdarstellungen entlang benutzerdefinierter Kameratrajektorien in fotorealistische Videos. Um diesen Renderer für die Interaktion praktikabel zu machen, trainieren wir einen bidirektionalen Diffusions-Lehrer für hochwertiges bedingtes Rendern und destillieren ihn in einen kausalen autoregressiven Schüler für Streaming mit begrenzter Latenz. Dieses Design kombiniert die Steuerbarkeit und Langzeitkonsistenz expliziter 3D-Darstellungen mit der Wahrnehmungsqualität generativer Videomodelle. MoVerse unterstützt Echtzeit-Szenen-Roaming mit 8 FPS auf einer einzelnen NVIDIA RTX 4090 GPU und demonstriert einen praktischen Weg zur Welterstellung aus einem Einzelbild mit interaktivem Video-Output.

English

We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360^circ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.