WorldStereo: Uniendo la Generación de Video Guiada por Cámara y la Reconstrucción de Escenas mediante Memorias Geométricas 3D

Resumen

Los recientes avances en los Modelos de Difusión de Video (VDM) fundamentales han logrado un progreso significativo. Sin embargo, a pesar de la notable calidad visual de los videos generados, la reconstrucción de escenas 3D consistentes a partir de estos resultados sigue siendo un desafío, debido a la limitada controlabilidad de la cámara y al contenido generado inconsistente cuando se visualiza desde distintas trayectorias de cámara. En este artículo, proponemos WorldStereo, un novedoso marco que conecta la generación de video guiada por cámara y la reconstrucción 3D a través de dos módulos de memoria geométrica dedicados. Formalmente, la memoria global-geométrica permite un control preciso de la cámara mientras inyecta *priors* estructurales aproximados mediante nubes de puntos actualizadas incrementalmente. Además, la memoria estéreo-espacial restringe los campos receptivos de atención del modelo con correspondencia 3D para centrarse en detalles de grano fino del banco de memoria. Estos componentes permiten a WorldStereo generar videos consistentes multi-vista bajo un control preciso de cámara, facilitando una reconstrucción 3D de alta calidad. Además, el WorldStereo basado en ramas de control flexible muestra una eficiencia impresionante, beneficiándose del backbone VDM destilado por correspondencia de distribuciones sin entrenamiento conjunto. Experimentos exhaustivos en benchmarks de generación de video guiada por cámara y de reconstrucción 3D demuestran la efectividad de nuestro enfoque. Cabe destacar que mostramos que WorldStereo actúa como un potente modelo del mundo, abordando diversas tareas de generación de escenas (ya sea comenzando desde imágenes perspectivas o panorámicas) con resultados 3D de alta fidelidad. Los modelos serán liberados.

English

Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.

WorldStereo: Uniendo la Generación de Video Guiada por Cámara y la Reconstrucción de Escenas mediante Memorias Geométricas 3D

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

Resumen

Support