WorldStereo: Colmare il Divario tra Generazione Video Guidata da Fotocamera e Ricostruzione di Scene tramite Memorie Geometriche 3D

Abstract

I recenti progressi nei modelli di diffusione video (VDM) fondamentali hanno portato a significativi avanzamenti. Tuttavia, nonostante la notevole qualità visiva dei video generati, la ricostruzione di scene 3D coerenti a partire da questi output rimane una sfida, a causa della limitata controllabilità della telecamera e dell'incoerenza del contenuto generato quando visto da diverse traiettorie camerali. In questo articolo, proponiamo WorldStereo, un nuovo framework che collega la generazione video guidata da telecamera e la ricostruzione 3D attraverso due moduli dedicati di memoria geometrica. Formalmente, la memoria globale-geometrica consente un controllo preciso della telecamera iniettando prior strutturali grossolani attraverso nuvole di punti aggiornate incrementalmente. Inoltre, la memoria stereo-spaziale vincola i campi recettivi dell'attenzione del modello con corrispondenze 3D per concentrarsi sui dettagli granulari dalla banca della memoria. Questi componenti permettono a WorldStereo di generare video consistenti da più visuali sotto un controllo camerale preciso, facilitando una ricostruzione 3D di alta qualità. Inoltre, il WorldStereo basato su rami di controllo flessibili mostra un'efficienza impressionante, beneficiando del backbone VDM distillato per l'accoppiamento delle distribuzioni senza addestramento congiunto. Esperimenti estesi su benchmark sia per la generazione video guidata da telecamera che per la ricostruzione 3D dimostrano l'efficacia del nostro approccio. È degno di nota che WorldStereo agisca come un potente modello mondiale, affrontando diverse attività di generazione di scene (che inizino da immagini prospettiche o panoramiche) con risultati 3D ad alta fedeltà. I modelli saranno rilasciati.

English

Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.

WorldStereo: Colmare il Divario tra Generazione Video Guidata da Fotocamera e Ricostruzione di Scene tramite Memorie Geometriche 3D

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

Abstract

Support