ChatPaper.aiChatPaper

Geo4D: Gebruikmaken van videogeneratoren voor geometrische 4D-scènereconstructie

Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

April 10, 2025
Auteurs: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI

Samenvatting

We introduceren Geo4D, een methode om videodiffusiemodellen te hergebruiken voor monoculaire 3D-reconstructie van dynamische scènes. Door gebruik te maken van het sterke dynamische voorafgaande model dat door dergelijke videomodellen wordt vastgelegd, kan Geo4D worden getraind met alleen synthetische data, terwijl het goed generaliseert naar echte data op een zero-shot-manier. Geo4D voorspelt verschillende complementaire geometrische modaliteiten, namelijk punt-, diepte- en straal kaarten. Het gebruikt een nieuw multi-modale uitlijningsalgoritme om deze modaliteiten, evenals meerdere schuivende vensters, tijdens de inferentie uit te lijnen en te fuseren, waardoor een robuuste en nauwkeurige 4D-reconstructie van lange video's wordt verkregen. Uitgebreide experimenten over meerdere benchmarks tonen aan dat Geo4D de state-of-the-art methoden voor videodiepteschatting aanzienlijk overtreft, inclusief recente methoden zoals MonST3R, die ook zijn ontworpen om dynamische scènes te verwerken.
English
We introduce Geo4D, a method to repurpose video diffusion models for monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic prior captured by such video models, Geo4D can be trained using only synthetic data while generalizing well to real data in a zero-shot manner. Geo4D predicts several complementary geometric modalities, namely point, depth, and ray maps. It uses a new multi-modal alignment algorithm to align and fuse these modalities, as well as multiple sliding windows, at inference time, thus obtaining robust and accurate 4D reconstruction of long videos. Extensive experiments across multiple benchmarks show that Geo4D significantly surpasses state-of-the-art video depth estimation methods, including recent methods such as MonST3R, which are also designed to handle dynamic scenes.
PDF62April 11, 2025