ChatPaper.aiChatPaper

Dens3R: 3D 기하학 예측을 위한 기초 모델

Dens3R: A Foundation Model for 3D Geometry Prediction

July 22, 2025
저자: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI

초록

최근 고밀도 3D 재구성 기술의 발전으로 상당한 진전이 이루어졌으나, 정확한 통합 기하학적 예측을 달성하는 것은 여전히 주요 과제로 남아 있습니다. 기존의 대부분의 방법은 입력 이미지로부터 단일 기하학적 양을 예측하는 데에 한정되어 있습니다. 그러나 깊이, 표면 법선, 포인트 맵과 같은 기하학적 양은 본질적으로 상호 연관되어 있으며, 이를 개별적으로 추정할 경우 일관성을 보장하기 어려워 정확성과 실용적 적용 가능성이 제한됩니다. 이에 따라 우리는 다양한 기하학적 특성 간의 구조적 결합을 명시적으로 모델링하여 공동 회귀를 가능하게 하는 통합 프레임워크를 탐구하게 되었습니다. 본 논문에서는 다양한 하위 작업에 적응 가능한 공동 기하학적 고밀도 예측을 위한 3D 기초 모델인 Dens3R를 제안합니다. Dens3R는 일반화 가능하고 본질적으로 불변적인 포인트맵 표현을 점진적으로 구축하기 위해 두 단계의 훈련 프레임워크를 채택합니다. 구체적으로, 우리는 경량의 공유 인코더-디코더 백본을 설계하고, 고해상도 입력에 대한 강건성을 강화하면서도 표현력을 유지하기 위해 위치 보간 회전 위치 인코딩을 도입했습니다. Dens3R는 이미지 쌍 매칭 특징과 본질적 불변성 모델링을 통합하여 표면 법선 및 깊이와 같은 여러 기하학적 양을 정확하게 회귀하며, 단일 뷰에서 다중 뷰 입력에 이르기까지 일관된 기하학적 인식을 달성합니다. 또한, 기하학적으로 일관된 다중 뷰 추론을 지원하는 후처리 파이프라인을 제안합니다. 다양한 고밀도 3D 예측 작업에서 Dens3R의 우수한 성능을 입증하는 광범위한 실험을 통해, 이 모델의 더 넓은 응용 가능성을 강조합니다.
English
Recent advances in dense 3D reconstruction have led to significant progress, yet achieving accurate unified geometric prediction remains a major challenge. Most existing methods are limited to predicting a single geometry quantity from input images. However, geometric quantities such as depth, surface normals, and point maps are inherently correlated, and estimating them in isolation often fails to ensure consistency, thereby limiting both accuracy and practical applicability. This motivates us to explore a unified framework that explicitly models the structural coupling among different geometric properties to enable joint regression. In this paper, we present Dens3R, a 3D foundation model designed for joint geometric dense prediction and adaptable to a wide range of downstream tasks. Dens3R adopts a two-stage training framework to progressively build a pointmap representation that is both generalizable and intrinsically invariant. Specifically, we design a lightweight shared encoder-decoder backbone and introduce position-interpolated rotary positional encoding to maintain expressive power while enhancing robustness to high-resolution inputs. By integrating image-pair matching features with intrinsic invariance modeling, Dens3R accurately regresses multiple geometric quantities such as surface normals and depth, achieving consistent geometry perception from single-view to multi-view inputs. Additionally, we propose a post-processing pipeline that supports geometrically consistent multi-view inference. Extensive experiments demonstrate the superior performance of Dens3R across various dense 3D prediction tasks and highlight its potential for broader applications.
PDF52August 5, 2025