WorldStereo: Conectando a Geração de Vídeo Guiada por Câmera e a Reconstrução de Cenas através de Memórias Geométricas 3D
WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
March 2, 2026
Autores: Yisu Zhang, Chenjie Cao, Tengfei Wang, Xuhui Zuo, Junta Wu, Jianke Zhu, Chunchao Guo
cs.AI
Resumo
Avances recentes nos Modelos de Difusão de Vídeo (VDMs) fundamentais têm gerado progressos significativos. No entanto, apesar da notável qualidade visual dos vídeos gerados, a reconstrução de cenas 3D consistentes a partir dessas saídas permanece um desafio, devido à limitada controlabilidade da câmera e ao conteúdo gerado inconsistente quando visto a partir de trajetórias de câmera distintas. Neste artigo, propomos o WorldStereo, uma nova estrutura que conecta a geração de vídeo guiada por câmera e a reconstrução 3D por meio de dois módulos de memória geométrica dedicados. Formalmente, a memória global-geométrica permite um controle preciso da câmera enquanto injeta *priors* estruturais grosseiros através de nuvens de pontos atualizadas incrementalmente. Além disso, a memória espacial-estéreo restringe os campos receptivos de atenção do modelo com correspondência 3D para focar em detalhes de granularidade fina a partir do banco de memória. Esses componentes permitem que o WorldStereo gere vídeos consistentes em múltiplas visões sob controle preciso de câmera, facilitando uma reconstrução 3D de alta qualidade. Ademais, o WorldStereo baseado em ramo de controle flexível mostra uma eficiência impressionante, beneficiando-se do *backbone* VDM destilado por correspondência de distribuição sem treinamento conjunto. Experimentos extensos em benchmarks de geração de vídeo guiada por câmera e de reconstrução 3D demonstram a eficácia da nossa abordagem. Notavelmente, mostramos que o WorldStereo atua como um poderoso modelo de mundo, abordando diversas tarefas de geração de cena (seja começando de imagens perspectivas ou panorâmicas) com resultados 3D de alta fidelidade. Os modelos serão disponibilizados.
English
Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.