Remoção de Ruído de Representações Conscientes da Geometria para Reconstrução 3D Robusta Multivista
Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction
May 25, 2026
Autores: Jin Hyeon Kim, Jaeeun Lee, Claire Kim, Kyoungjin Oh, Paul Hyunbin Cho, Jaewon Min, Yeji Choi, Jihye Park, Hyunhee Park, Minkyu Park, Seungryong Kim
cs.AI
Resumo
A reconstrução 3D multivista alcançou progresso notável com o advento de modelos feed-forward de reconstrução 3D. No entanto, esses modelos são tipicamente treinados e avaliados sob condições ideais de imagem, livres de degradações, enquanto observações do mundo real frequentemente contêm degradações que diferem significativamente dessas condições. Melhorar a robustez da reconstrução 3D multivista sob condições degradadas continua sendo um desafio importante. Apresentamos o Geometry-Aware Representation Denoising (GARD), uma nova abordagem que realiza restauração multivista baseada em difusão diretamente no espaço de características de um modelo feed-forward de reconstrução 3D. Este design explora as representações de características sensíveis à geometria do reconstruidor 3D para recuperar de forma eficaz a geometria precisa da cena. Além disso, ao empregar um decodificador de imagem RGB adicional, as representações refinadas também podem ser usadas para restaurar imagens RGB de alta qualidade, permitindo assim a recuperação simultânea da geometria da cena 3D e de imagens de alta qualidade. Experimentos abrangentes no benchmark Depth Anything 3 (DA3) demonstram a eficácia do framework GARD proposto.
English
Multi-view 3D reconstruction has achieved remarkable progress with the advent of feed-forward 3D reconstruction models. However, these models are typically trained and evaluated under ideal, degradation-free imaging conditions, whereas real-world observations often contain degradations that differ significantly from such settings. Improving robustness for multi-view 3D reconstruction under degraded conditions therefore remains an important challenge. We present Geometry-Aware Representation Denoising (GARD), a novel framework that performs diffusion-based multi-view restoration directly in the feature space of a feed-forward 3D reconstruction model. This design exploits the geometry-aware feature representations of the 3D reconstructor to effectively recover accurate scene geometry. Furthermore, by employing an additional RGB image decoder, the refined representations can also be used to restore high-quality RGB images, thereby enabling the simultaneous recovery of 3D scene geometry and high-quality imagery. Comprehensive experiments on the Depth Anything 3 (DA3) benchmark demonstrate the effectiveness of the proposed GARD framework.