Геометрически-осознанное подавление шума представления для устойчивой многовидовой 3D-реконструкции

Аннотация

Многовьюная 3D-реконструкция достигла значительного прогресса с появлением прямых моделей 3D-реконструкции (feed-forward). Однако такие модели обычно обучаются и оцениваются в идеальных условиях без деградации изображений, тогда как реальные наблюдения часто содержат искажения, существенно отличающиеся от этих условий. Таким образом, повышение устойчивости многовьюной 3D-реконструкции в условиях деградации остается важной задачей. Мы представляем Geometry-Aware Representation Denoising (GARD) — новую структуру, выполняющую диффузионное восстановление многовидовых данных непосредственно в пространстве признаков прямой модели 3D-реконструкции. Данный подход использует геометрически осознанные представления признаков реконструктора для эффективного восстановления точной геометрии сцены. Кроме того, с помощью дополнительного декодера RGB-изображений уточненные представления могут также применяться для восстановления высококачественных RGB-изображений, что позволяет одновременно восстанавливать 3D-геометрию сцены и изображения высокого качества. Комплексные эксперименты на эталоне Depth Anything 3 (DA3) демонстрируют эффективность предложенной структуры GARD.

English

Multi-view 3D reconstruction has achieved remarkable progress with the advent of feed-forward 3D reconstruction models. However, these models are typically trained and evaluated under ideal, degradation-free imaging conditions, whereas real-world observations often contain degradations that differ significantly from such settings. Improving robustness for multi-view 3D reconstruction under degraded conditions therefore remains an important challenge. We present Geometry-Aware Representation Denoising (GARD), a novel framework that performs diffusion-based multi-view restoration directly in the feature space of a feed-forward 3D reconstruction model. This design exploits the geometry-aware feature representations of the 3D reconstructor to effectively recover accurate scene geometry. Furthermore, by employing an additional RGB image decoder, the refined representations can also be used to restore high-quality RGB images, thereby enabling the simultaneous recovery of 3D scene geometry and high-quality imagery. Comprehensive experiments on the Depth Anything 3 (DA3) benchmark demonstrate the effectiveness of the proposed GARD framework.