Débruitage de représentation conscient de la géométrie pour une reconstruction 3D multi-vue robuste

Résumé

La reconstruction 3D multi-vue a réalisé des progrès remarquables grâce à l'avènement des modèles de reconstruction 3D par anticipation. Cependant, ces modèles sont généralement entraînés et évalués dans des conditions d'imagerie idéales, sans dégradation, alors que les observations réelles présentent souvent des dégradations qui diffèrent considérablement de ces conditions. Améliorer la robustesse de la reconstruction 3D multi-vue en présence de dégradations reste donc un défi important. Nous présentons GARD (Geometry-Aware Representation Denoising), un nouveau cadre qui effectue une restauration multi-vue par diffusion directement dans l'espace des caractéristiques d'un modèle de reconstruction 3D par anticipation. Cette conception exploite les représentations de caractéristiques conscientes de la géométrie du reconstructeur 3D pour rétablir efficacement une géométrie de scène précise. De plus, en utilisant un décodeur d'image RVB supplémentaire, les représentations affinées peuvent également être employées pour restaurer des images RVB de haute qualité, permettant ainsi une récupération simultanée de la géométrie de la scène 3D et de l'imagerie de haute qualité. Des expériences approfondies sur le benchmark Depth Anything 3 (DA3) démontrent l'efficacité du cadre GARD proposé.

English

Multi-view 3D reconstruction has achieved remarkable progress with the advent of feed-forward 3D reconstruction models. However, these models are typically trained and evaluated under ideal, degradation-free imaging conditions, whereas real-world observations often contain degradations that differ significantly from such settings. Improving robustness for multi-view 3D reconstruction under degraded conditions therefore remains an important challenge. We present Geometry-Aware Representation Denoising (GARD), a novel framework that performs diffusion-based multi-view restoration directly in the feature space of a feed-forward 3D reconstruction model. This design exploits the geometry-aware feature representations of the 3D reconstructor to effectively recover accurate scene geometry. Furthermore, by employing an additional RGB image decoder, the refined representations can also be used to restore high-quality RGB images, thereby enabling the simultaneous recovery of 3D scene geometry and high-quality imagery. Comprehensive experiments on the Depth Anything 3 (DA3) benchmark demonstrate the effectiveness of the proposed GARD framework.