Geometriebewuste representatie-ruisonderdrukking voor robuuste multi-view 3D-reconstructie

Samenvatting

Multi-view 3D-reconstructie heeft opmerkelijke vooruitgang geboekt met de komst van feed-forward 3D-reconstructiemodellen. Deze modellen worden echter doorgaans getraind en geëvalueerd onder ideale, degradatievrije beeldvormingsomstandigheden, terwijl waarnemingen in de praktijk vaak degradaties bevatten die aanzienlijk afwijken van dergelijke instellingen. Het verbeteren van de robuustheid van multi-view 3D-reconstructie onder gedegradeerde omstandigheden blijft daarom een belangrijke uitdaging. We presenteren Geometry-Aware Representation Denoising (GARD), een nieuw raamwerk dat diffusie-gebaseerde multi-view restauratie rechtstreeks uitvoert in de kenmerkruimte van een feed-forward 3D-reconstructiemodel. Dit ontwerp maakt gebruik van de geometriebewuste kenmerkrepresentaties van de 3D-reconstructor om effectief nauwkeurige scènegeometrie te herstellen. Bovendien kunnen de verfijnde representaties, door het gebruik van een extra RGB-beelddecoder, ook worden gebruikt om hoogwaardige RGB-beelden te herstellen, waardoor gelijktijdig herstel van 3D-scènegeometrie en hoogwaardige beelden mogelijk wordt. Uitvoerige experimenten op de Depth Anything 3 (DA3)-benchmark tonen de effectiviteit van het voorgestelde GARD-raamwerk aan.

English

Multi-view 3D reconstruction has achieved remarkable progress with the advent of feed-forward 3D reconstruction models. However, these models are typically trained and evaluated under ideal, degradation-free imaging conditions, whereas real-world observations often contain degradations that differ significantly from such settings. Improving robustness for multi-view 3D reconstruction under degraded conditions therefore remains an important challenge. We present Geometry-Aware Representation Denoising (GARD), a novel framework that performs diffusion-based multi-view restoration directly in the feature space of a feed-forward 3D reconstruction model. This design exploits the geometry-aware feature representations of the 3D reconstructor to effectively recover accurate scene geometry. Furthermore, by employing an additional RGB image decoder, the refined representations can also be used to restore high-quality RGB images, thereby enabling the simultaneous recovery of 3D scene geometry and high-quality imagery. Comprehensive experiments on the Depth Anything 3 (DA3) benchmark demonstrate the effectiveness of the proposed GARD framework.