MoVerse: Моделирование видеомира в реальном времени с панорамным гауссовым каркасом

Аннотация

Мы представляем MoVerse — модель видеомира в реальном времени, создающую интерактивно навигируемую сцену по одному изображению с узким полем обзора. Эта постановка является сложной, поскольку входной сигнал охватывает лишь малую часть окружения, в то время как интерактивное перемещение требует полного окружающего мира, устойчивой геометрии, управляемого движения камеры и темпорально когерентных наблюдений высокого качества. MoVerse решает эту задачу, разделяя построение мира и рендеринг наблюдений. Сначала модель расширяет входной сигнал до панорамы 360°, выровненной по гравитации, с помощью диффузии, учитывающей топологию, закрывая отсутствующее поле обзора до выполнения 3D-рассуждений. Затем она поднимает панораму до постоянного 3D-скаффолда на основе гауссианов, используя прогнозирование остаточных значений с учетом геометрии панорамы, что даёт плотную и непосредственно рендерируемую пространственную память. Наконец, видеорендерер, обусловленный гауссианами, преобразует рендеринги скаффолда вдоль задаваемых пользователем траекторий камеры в фотореалистичное видео. Чтобы сделать этот рендерер пригодным для взаимодействия, мы обучаем двунаправленного диффузионного учителя для качественного условного рендеринга и дистиллируем его в каузального авторегрессионного ученика для потоковой передачи с ограниченной задержкой. Такая конструкция объединяет управляемость и долговременную согласованность явных 3D-представлений с перцептивным качеством генеративных видеомоделей. MoVerse поддерживает перемещение по сцене в реальном времени с частотой 8 кадров/с на одном GPU NVIDIA RTX 4090, демонстрируя практический путь к созданию мира по одному изображению с интерактивным видео на выходе.

English

We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360^circ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.