Voyager: Difusión de Video de Largo Alcance y Consistencia Mundial para la Generación de Escenas 3D Explorables

Resumen

Aplicaciones del mundo real como los videojuegos y la realidad virtual a menudo requieren la capacidad de modelar escenas 3D que los usuarios puedan explorar a lo largo de trayectorias de cámara personalizadas. Aunque se ha logrado un progreso significativo en la generación de objetos 3D a partir de texto o imágenes, la creación de escenas 3D explorables, consistentes a largo alcance y en 3D sigue siendo un problema complejo y desafiante. En este trabajo, presentamos Voyager, un novedoso marco de difusión de video que genera secuencias de nubes de puntos 3D consistentes con el mundo a partir de una sola imagen con una trayectoria de cámara definida por el usuario. A diferencia de los enfoques existentes, Voyager logra la generación y reconstrucción de escenas de extremo a extremo con consistencia inherente entre fotogramas, eliminando la necesidad de pipelines de reconstrucción 3D (por ejemplo, estructura a partir del movimiento o estéreo multivista). Nuestro método integra tres componentes clave: 1) Difusión de Video Consistente con el Mundo: Una arquitectura unificada que genera conjuntamente secuencias de video RGB y de profundidad alineadas, condicionadas por la observación del mundo existente para garantizar coherencia global. 2) Exploración del Mundo a Largo Alcance: Un caché de mundo eficiente con eliminación de puntos y una inferencia autorregresiva con muestreo suave de video para la extensión iterativa de la escena con consistencia consciente del contexto. 3) Motor de Datos Escalable: Un pipeline de reconstrucción de video que automatiza la estimación de la pose de la cámara y la predicción de profundidad métrica para videos arbitrarios, permitiendo la curación de datos de entrenamiento diversos y a gran escala sin anotaciones 3D manuales. En conjunto, estos diseños resultan en una mejora clara sobre los métodos existentes en calidad visual y precisión geométrica, con aplicaciones versátiles.

English

Real-world applications like video gaming and virtual reality often demand the ability to model 3D scenes that users can explore along custom camera trajectories. While significant progress has been made in generating 3D objects from text or images, creating long-range, 3D-consistent, explorable 3D scenes remains a complex and challenging problem. In this work, we present Voyager, a novel video diffusion framework that generates world-consistent 3D point-cloud sequences from a single image with user-defined camera path. Unlike existing approaches, Voyager achieves end-to-end scene generation and reconstruction with inherent consistency across frames, eliminating the need for 3D reconstruction pipelines (e.g., structure-from-motion or multi-view stereo). Our method integrates three key components: 1) World-Consistent Video Diffusion: A unified architecture that jointly generates aligned RGB and depth video sequences, conditioned on existing world observation to ensure global coherence 2) Long-Range World Exploration: An efficient world cache with point culling and an auto-regressive inference with smooth video sampling for iterative scene extension with context-aware consistency, and 3) Scalable Data Engine: A video reconstruction pipeline that automates camera pose estimation and metric depth prediction for arbitrary videos, enabling large-scale, diverse training data curation without manual 3D annotations. Collectively, these designs result in a clear improvement over existing methods in visual quality and geometric accuracy, with versatile applications.

Voyager: Difusión de Video de Largo Alcance y Consistencia Mundial para la Generación de Escenas 3D Explorables

Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation

Resumen

Support