WorldStereo: De brug slaan tussen camera-gestuurde videogeneratie en scène-reconstructie via 3D geometrische geheugens

Samenvatting

Recente vooruitgang in fundamentele Video Diffusiemodellen (VDM's) heeft aanzienlijke vooruitgang opgeleverd. Desalniettemin blijft het reconstrueren van consistente 3D-scènes uit deze gegenereerde video's een uitdaging, ondanks de opmerkelijke visuele kwaliteit. Dit komt door beperkte camera-bestuurbaarheid en inconsistente gegenereerde inhoud wanneer deze vanuit verschillende cameratrajecten wordt bekeken. In dit artikel stellen we WorldStereo voor, een nieuw raamwerk dat camera-gestuurde videogeneratie en 3D-reconstructie verbindt via twee toegewijde geometrische geheugenmodules. Formeel gezien stelt het globaal-geometrisch geheugen precieze camerabesturing mogelijk, terwijl het grove structurele priors injecteert door middel van incrementeel bijgewerkte puntenwolken. Bovendien beperkt het ruimtelijk-stereo geheugen de aandachtreceptieve velden van het model met 3D-correspondentie om zich te concentreren op fijnmazige details uit de geheugenbank. Deze componenten stellen WorldStereo in staat om multi-view consistente video's te genereren onder precieze camerabesturing, wat hoogwaardige 3D-reconstructie vergemakkelijkt. Verder toont de flexibele, op controlevertakkingen gebaseerde WorldStereo indrukwekkende efficiëntie, profiterend van de VDM-backbone gedestilleerd via distributie-matching zonder gezamenlijke training. Uitgebreide experimenten op zowel camera-gestuurde videogeneratie- als 3D-reconstructiebenchmarks demonstreren de effectiviteit van onze aanpak. Opmerkelijk is dat we aantonen dat WorldStereo fungeert als een krachtig wereldmodel, dat diverse scènegeneratietaken aanpakt (of het nu start vanuit perspectief- of panoramabeelden) met hoogwaardige 3D-resultaten. De modellen zullen worden vrijgegeven.

English

Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.

WorldStereo: De brug slaan tussen camera-gestuurde videogeneratie en scène-reconstructie via 3D geometrische geheugens

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

Samenvatting

Support