WorldStereo: 3D 기하학적 메모리를 통한 카메라 가이드 비디오 생성과 장면 재구성의 연결
WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
March 2, 2026
저자: Yisu Zhang, Chenjie Cao, Tengfei Wang, Xuhui Zuo, Junta Wu, Jianke Zhu, Chunchao Guo
cs.AI
초록
기반 비디오 확산 모델(VDM)의 최근 발전으로 상당한 진전이 이루어졌습니다. 그러나 생성된 비디오의 뛰어난 시각적 품질에도 불구하고, 제한된 카메라 제어성과 서로 다른 카메라 궤적에서 볼 때 일관성 없는 생성 콘텐츠로 인해 이러한 출력물에서 일관된 3D 장면을 재구성하는 것은 여전히 어려운 과제입니다. 본 논문에서는 두 가지 전용 기하학적 메모리 모듈을 통해 카메라 기반 비디오 생성과 3D 재구성을 연결하는 새로운 프레임워크인 WorldStereo를 제안합니다. 공식적으로, 전역 기하학적 메모리는 점진적으로 업데이트되는 포인트 클라우드를 통해 거시적인 구조적 사전 정보를 주입하면서 정밀한 카메라 제어를 가능하게 합니다. 더 나아가, 공간-스테레오 메모리는 3D 대응 관계를 통해 모델의 어텐션 수용 영역을 제한하여 메모리 뱅크의 세밀한 디테일에 집중하도록 합니다. 이러한 구성 요소는 WorldStereo가 정밀한 카메라 제어 하에서 다중 시점 일관성 비디오를 생성하여 고품질 3D 재구성을 용이하게 합니다. 또한, 유연한 제어 분기 기반의 WorldStereo는 공동 학습 없이 분포 매칭으로 증류된 VDM 백본으로부터 이점을 얻어 인상적인 효율성을 보여줍니다. 카메라 기반 비디오 생성 및 3D 재구성 벤치마크를 아우르는 폭넓은 실험을 통해 우리 접근법의 효과성을 입증합니다. 특히 WorldStereo가 강력한 월드 모델로 작동하여 원근 또는 파노라마 이미지로 시작하든 다양한 장면 생성 작업을 고화질 3D 결과물로 해결할 수 있음을 보여줍니다. 모델은 공개될 예정입니다.
English
Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.