WorldStereo: Brückenschlag zwischen kamerageführter Videogenerierung und Szenenrekonstruktion durch 3D-geometrische Gedächtnisse

Zusammenfassung

Jüngste Fortschritte bei grundlegenden Video-Diffusionsmodellen (VDMs) haben bedeutende Verbesserungen erzielt. Trotz der bemerkenswerten visuellen Qualität generierter Videos bleibt die Rekonstruktion konsistenter 3D-Szenen aus diesen Ergebnissen jedoch eine Herausforderung, was auf die eingeschränkte Kamerasteuerbarkeit und inkonsistente generierte Inhalte bei Betrachtung aus verschiedenen Kameratrajektorien zurückzuführen ist. In diesem Artikel stellen wir WorldStereo vor, einen neuartigen Rahmen, der kamerageführte Videogenerierung und 3D-Rekonstruktion über zwei spezielle geometrische Speichermodule verbindet. Formal ermöglicht der global-geometrische Speicher eine präzise Kamerasteuerung, während grobe Strukturpriors durch inkrementell aktualisierte Punktwolken injiziert werden. Darüber hinaus beschränkt der räumlich-stereo-Speicher die Aufmerksamkeitsrezeptivfelder des Modells mit 3D-Korrespondenz, um sich auf feinkörnige Details aus dem Speicherbank zu konzentrieren. Diese Komponenten ermöglichen es WorldStereo, multiview-konsistente Videos unter präziser Kamerasteuerung zu generieren und so hochwertige 3D-Rekonstruktionen zu erleichtern. Weiterhin zeigt das flexible, auf Steuerungszweigen basierende WorldStereo eine beeindruckende Effizienz, die von dem durch Verteilungsabgleich destillierten VDM-Backbone profitiert, ohne gemeinsames Training. Umfangreiche Experimente in Benchmarks sowohl für kamerageführte Videogenerierung als auch für 3D-Rekonstruktion demonstrieren die Wirksamkeit unseres Ansatzes. Bemerkenswerterweise zeigen wir, dass WorldStereo als leistungsstarkes Weltmodell fungiert und verschiedene Szenengenerierungsaufgaben (ob ausgehend von perspektivischen oder panoramischen Bildern) mit hochwertigen 3D-Ergebnissen bewältigt. Die Modelle werden veröffentlicht.

English

Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.

WorldStereo: Brückenschlag zwischen kamerageführter Videogenerierung und Szenenrekonstruktion durch 3D-geometrische Gedächtnisse

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

Zusammenfassung

Support