Voyager: Difusión de Video de Largo Alcance y Consistencia Mundial para la Generación de Escenas 3D Explorables
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
June 4, 2025
Autores: Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
cs.AI
Resumen
Aplicaciones del mundo real como los videojuegos y la realidad virtual a menudo requieren la capacidad de modelar escenas 3D que los usuarios puedan explorar a lo largo de trayectorias de cámara personalizadas. Aunque se ha logrado un progreso significativo en la generación de objetos 3D a partir de texto o imágenes, la creación de escenas 3D explorables, consistentes a largo alcance y en 3D sigue siendo un problema complejo y desafiante. En este trabajo, presentamos Voyager, un novedoso marco de difusión de video que genera secuencias de nubes de puntos 3D consistentes con el mundo a partir de una sola imagen con una trayectoria de cámara definida por el usuario. A diferencia de los enfoques existentes, Voyager logra la generación y reconstrucción de escenas de extremo a extremo con consistencia inherente entre fotogramas, eliminando la necesidad de pipelines de reconstrucción 3D (por ejemplo, estructura a partir del movimiento o estéreo multivista). Nuestro método integra tres componentes clave: 1) Difusión de Video Consistente con el Mundo: Una arquitectura unificada que genera conjuntamente secuencias de video RGB y de profundidad alineadas, condicionadas por la observación del mundo existente para garantizar coherencia global. 2) Exploración del Mundo a Largo Alcance: Un caché de mundo eficiente con eliminación de puntos y una inferencia autorregresiva con muestreo suave de video para la extensión iterativa de la escena con consistencia consciente del contexto. 3) Motor de Datos Escalable: Un pipeline de reconstrucción de video que automatiza la estimación de la pose de la cámara y la predicción de profundidad métrica para videos arbitrarios, permitiendo la curación de datos de entrenamiento diversos y a gran escala sin anotaciones 3D manuales. En conjunto, estos diseños resultan en una mejora clara sobre los métodos existentes en calidad visual y precisión geométrica, con aplicaciones versátiles.
English
Real-world applications like video gaming and virtual reality often demand
the ability to model 3D scenes that users can explore along custom camera
trajectories. While significant progress has been made in generating 3D objects
from text or images, creating long-range, 3D-consistent, explorable 3D scenes
remains a complex and challenging problem. In this work, we present Voyager, a
novel video diffusion framework that generates world-consistent 3D point-cloud
sequences from a single image with user-defined camera path. Unlike existing
approaches, Voyager achieves end-to-end scene generation and reconstruction
with inherent consistency across frames, eliminating the need for 3D
reconstruction pipelines (e.g., structure-from-motion or multi-view stereo).
Our method integrates three key components: 1) World-Consistent Video
Diffusion: A unified architecture that jointly generates aligned RGB and depth
video sequences, conditioned on existing world observation to ensure global
coherence 2) Long-Range World Exploration: An efficient world cache with point
culling and an auto-regressive inference with smooth video sampling for
iterative scene extension with context-aware consistency, and 3) Scalable Data
Engine: A video reconstruction pipeline that automates camera pose estimation
and metric depth prediction for arbitrary videos, enabling large-scale, diverse
training data curation without manual 3D annotations. Collectively, these
designs result in a clear improvement over existing methods in visual quality
and geometric accuracy, with versatile applications.