Geometriebewusste Repräsentationsentrauschung für robuste Mehransicht-3D-Rekonstruktion

Zusammenfassung

Multi-View-3D-Rekonstruktion hat mit dem Aufkommen vorwärtsgerichteter 3D-Rekonstruktionsmodelle bemerkenswerte Fortschritte erzielt. Allerdings werden diese Modelle typischerweise unter idealen, beeinträchtigungsfreien Abbildungsbedingungen trainiert und evaluiert, während reale Beobachtungen häufig Beeinträchtigungen enthalten, die sich erheblich von solchen Gegebenheiten unterscheiden. Die Verbesserung der Robustheit für die Multi-View-3D-Rekonstruktion unter beeinträchtigten Bedingungen bleibt daher eine wichtige Herausforderung. Wir stellen Geometry-Aware Representation Denoising (GARD) vor, ein neuartiges Framework, das eine diffusionsbasierte Multi-View-Wiederherstellung direkt im Merkmalsraum eines vorwärtsgerichteten 3D-Rekonstruktionsmodells durchführt. Dieses Design nutzt die geometrybewussten Merkmalsrepräsentationen des 3D-Rekonstruktionssystems, um die genaue Szenengeometrie effektiv wiederherzustellen. Darüber hinaus können die verfeinerten Repräsentationen durch den Einsatz eines zusätzlichen RGB-Bilddecoders auch zur Wiederherstellung hochwertiger RGB-Bilder verwendet werden, was die gleichzeitige Wiederherstellung der 3D-Szenengeometrie und hochwertiger Bilder ermöglicht. Umfassende Experimente auf dem Depth-Anything-3 (DA3)-Benchmark belegen die Wirksamkeit des vorgeschlagenen GARD-Frameworks.

English

Multi-view 3D reconstruction has achieved remarkable progress with the advent of feed-forward 3D reconstruction models. However, these models are typically trained and evaluated under ideal, degradation-free imaging conditions, whereas real-world observations often contain degradations that differ significantly from such settings. Improving robustness for multi-view 3D reconstruction under degraded conditions therefore remains an important challenge. We present Geometry-Aware Representation Denoising (GARD), a novel framework that performs diffusion-based multi-view restoration directly in the feature space of a feed-forward 3D reconstruction model. This design exploits the geometry-aware feature representations of the 3D reconstructor to effectively recover accurate scene geometry. Furthermore, by employing an additional RGB image decoder, the refined representations can also be used to restore high-quality RGB images, thereby enabling the simultaneous recovery of 3D scene geometry and high-quality imagery. Comprehensive experiments on the Depth Anything 3 (DA3) benchmark demonstrate the effectiveness of the proposed GARD framework.