WorldStereo : Reliant la génération vidéo guidée par caméra et la reconstruction de scènes via des mémoires géométriques 3D

Résumé

Les progrès récents des modèles de diffusion vidéo fondamentaux (VDM) ont engendré des avancées significatives. Pourtant, malgré la qualité visuelle remarquable des vidéos générées, la reconstruction de scènes 3D cohérentes à partir de ces résultats reste un défi, en raison d'une contrôlabilité limitée de la caméra et d'un contenu généré incohérent lorsqu'il est visualisé depuis des trajectoires caméra distinctes. Dans cet article, nous proposons WorldStereo, un nouveau cadre qui relie la génération de vidéos guidée par caméra et la reconstruction 3D via deux modules de mémoire géométrique dédiés. Formellement, la mémoire globale-géométrique permet un contrôle précis de la caméra tout en injectant des prérequis structurels grossiers via des nuages de points mis à jour de manière incrémentale. De plus, la mémoire stéréo-spatiale contraint les champs réceptifs d'attention du modèle avec une correspondance 3D pour se concentrer sur les détails fins provenant de la banque de mémoire. Ces composants permettent à WorldStereo de générer des vidéos cohérentes en multivue sous un contrôle précis de la caméra, facilitant ainsi une reconstruction 3D de haute qualité. Par ailleurs, la version flexible de WorldStereo, basée sur des branches de contrôle, démontre une efficacité impressionnante, bénéficiant de l'architecture VDM distillée par appariement de distributions sans apprentissage conjoint. Des expériences approfondies sur des benchmarks de génération de vidéos guidée par caméra et de reconstruction 3D démontrent l'efficacité de notre approche. Notamment, nous montrons que WorldStereo agit comme un modèle du monde puissant, relevant diverses tâches de génération de scènes (qu'elles partent d'images perspectives ou panoramiques) avec des résultats 3D de haute fidélité. Les modèles seront publiés.

English

Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.

WorldStereo : Reliant la génération vidéo guidée par caméra et la reconstruction de scènes via des mémoires géométriques 3D

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

Résumé

Support