MoVerse: Real-time videowereldmodellering met panoramisch Gaussiaans raamwerk

Samenvatting

We presenteren MoVerse, een real-time videowereldmodel dat een interactief navigeerbare scène creëert vanuit een enkel beeld met een smal gezichtsveld. Deze situatie is uitdagend omdat de invoer slechts een klein deel van de omgeving waarneemt, terwijl interactief rondlopen een complete omringende wereld, persistente geometrie, controleerbare camerabeweging en temporeel coherente waarnemingen van hoge kwaliteit vereist. MoVerse pakt dit probleem aan door wereldconstructie te scheiden van waarnemingsrendering. Het breidt eerst de invoer uit naar een zwaartekracht-uitgelijnd 360°-panorama met topologiebewuste diffusie, waarbij het ontbrekende gezichtsveld wordt gesloten voordat er 3D-redenering plaatsvindt. Vervolgens tilt het het panorama op naar een persistent 3D-Gaussiaans raamwerk met behulp van panoramische geometriebewuste residupredictie, wat resulteert in een dicht en direct renderbaar ruimtelijk geheugen. Ten slotte vertaalt een Gaussiaans-geconditioneerde videorenderer de raamwerkrenderingen langs door de gebruiker gespecificeerde cameratrajecten naar fotorealistische video. Om deze renderer praktisch te maken voor interactie, trainen we een bidirectionele diffusieleraar voor conditionele rendering van hoge kwaliteit en destilleren we deze naar een causaal autoregressieve student voor streaming met begrensde latentie. Dit ontwerp combineert de beheersbaarheid en consistentie over lange afstand van expliciete 3D-representaties met de perceptuele kwaliteit van generatieve videomodellen. MoVerse ondersteunt real-time scènerondlopen met 8 FPS op een enkele NVIDIA RTX 4090 GPU, wat een praktische weg demonstreert naar wereldcreatie vanuit één beeld met interactieve video-uitvoer.

English

We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360^circ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.