MoVerse: Modelagem de Mundo de Vídeo em Tempo Real com Arcabouço Gaussiano Panorâmico

Resumo

Apresentamos o MoVerse, um modelo de mundo de vídeo em tempo real que cria uma cena navegável interativamente a partir de uma única imagem com campo de visão estreito. Essa configuração é desafiadora porque a entrada observa apenas uma pequena fração do ambiente, enquanto a navegação interativa requer um mundo circundante completo, geometria persistente, movimento de câmera controlável e observações de alta fidelidade temporalmente coerentes. O MoVerse aborda esse problema separando a construção do mundo da renderização de observações. Primeiro, ele expande a entrada em um panorama de 360° alinhado à gravidade com difusão ciente de topologia, fechando o campo de visão ausente antes do raciocínio 3D. Em seguida, ele eleva o panorama para um arcabouço 3D Gaussiano persistente usando predição residual ciente de geometria panorâmica, produzindo uma memória espacial densa e diretamente renderizável. Finalmente, um renderizador de vídeo condicionado por Gaussianos traduz as renderizações do arcabouço ao longo de trajetórias de câmera especificadas pelo usuário em vídeo fotorrealista. Para tornar este renderizador prático para interação, treinamos um professor de difusão bidirecional para renderização condicional de alta qualidade e o destilamos em um aluno autoregressivo causal para streaming de latência limitada. Este design combina a controlabilidade e a consistência de longo alcance das representações 3D explícitas com a qualidade perceptual dos modelos generativos de vídeo. O MoVerse suporta navegação de cena em tempo real a 8 FPS em uma única GPU NVIDIA RTX 4090, demonstrando um caminho prático para a criação de mundo a partir de uma única imagem com saída de vídeo interativa.

English

We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360^circ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.