Voyager: Difusão de Vídeo de Longo Alcance e Consistência Mundial para Geração de Cenas 3D Exploráveis
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
June 4, 2025
Autores: Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
cs.AI
Resumo
Aplicações do mundo real, como jogos de vídeo e realidade virtual, frequentemente exigem a capacidade de modelar cenas 3D que os usuários possam explorar ao longo de trajetórias de câmera personalizadas. Embora progressos significativos tenham sido feitos na geração de objetos 3D a partir de texto ou imagens, a criação de cenas 3D exploráveis, consistentes em longo alcance e tridimensionalmente coerentes, continua sendo um problema complexo e desafiador. Neste trabalho, apresentamos o Voyager, uma nova estrutura de difusão de vídeo que gera sequências de nuvens de pontos 3D consistentes com o mundo a partir de uma única imagem com um caminho de câmera definido pelo usuário. Diferente das abordagens existentes, o Voyager alcança a geração e reconstrução de cenas de ponta a ponta com consistência intrínseca entre os quadros, eliminando a necessidade de pipelines de reconstrução 3D (por exemplo, estrutura a partir do movimento ou estereoscopia multivista). Nosso método integra três componentes principais: 1) Difusão de Vídeo Consistente com o Mundo: Uma arquitetura unificada que gera conjuntamente sequências de vídeo RGB e de profundidade alinhadas, condicionadas à observação do mundo existente para garantir coerência global; 2) Exploração de Mundo em Longo Alcance: Um cache de mundo eficiente com eliminação de pontos e uma inferência autorregressiva com amostragem suave de vídeo para extensão iterativa da cena com consistência contextual; e 3) Motor de Dados Escalável: Um pipeline de reconstrução de vídeo que automatiza a estimativa de pose da câmera e a previsão de profundidade métrica para vídeos arbitrários, permitindo a curadoria de dados de treinamento em grande escala e diversificada sem anotações 3D manuais. Coletivamente, esses designs resultam em uma melhoria clara em relação aos métodos existentes em qualidade visual e precisão geométrica, com aplicações versáteis.
English
Real-world applications like video gaming and virtual reality often demand
the ability to model 3D scenes that users can explore along custom camera
trajectories. While significant progress has been made in generating 3D objects
from text or images, creating long-range, 3D-consistent, explorable 3D scenes
remains a complex and challenging problem. In this work, we present Voyager, a
novel video diffusion framework that generates world-consistent 3D point-cloud
sequences from a single image with user-defined camera path. Unlike existing
approaches, Voyager achieves end-to-end scene generation and reconstruction
with inherent consistency across frames, eliminating the need for 3D
reconstruction pipelines (e.g., structure-from-motion or multi-view stereo).
Our method integrates three key components: 1) World-Consistent Video
Diffusion: A unified architecture that jointly generates aligned RGB and depth
video sequences, conditioned on existing world observation to ensure global
coherence 2) Long-Range World Exploration: An efficient world cache with point
culling and an auto-regressive inference with smooth video sampling for
iterative scene extension with context-aware consistency, and 3) Scalable Data
Engine: A video reconstruction pipeline that automates camera pose estimation
and metric depth prediction for arbitrary videos, enabling large-scale, diverse
training data curation without manual 3D annotations. Collectively, these
designs result in a clear improvement over existing methods in visual quality
and geometric accuracy, with versatile applications.