Dens3R: Een fundamenteel model voor 3D-geometrievoorspelling
Dens3R: A Foundation Model for 3D Geometry Prediction
July 22, 2025
Auteurs: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI
Samenvatting
Recente vooruitgang in dichte 3D-reconstructie heeft tot aanzienlijke vooruitgang geleid, maar het bereiken van nauwkeurige, verenigde geometrische voorspelling blijft een grote uitdaging. De meeste bestaande methoden zijn beperkt tot het voorspellen van een enkele geometrische grootheid uit invoerbeelden. Echter, geometrische grootheden zoals diepte, oppervlaktenormalen en puntkaarten zijn inherent gecorreleerd, en het afzonderlijk schatten ervan zorgt vaak niet voor consistentie, wat zowel de nauwkeurigheid als de praktische toepasbaarheid beperkt. Dit motiveert ons om een verenigd raamwerk te verkennen dat expliciet de structurele koppeling tussen verschillende geometrische eigenschappen modelleert om gezamenlijke regressie mogelijk te maken. In dit artikel presenteren we Dens3R, een 3D-fundamentmodel ontworpen voor gezamenlijke geometrische dichte voorspelling en aanpasbaar aan een breed scala aan downstreamtaken. Dens3R neemt een tweestaps trainingsraamwerk aan om progressief een puntkaartrepresentatie op te bouwen die zowel generaliseerbaar als intrinsiek invariant is. Specifiek ontwerpen we een lichtgewicht gedeelde encoder-decoder-backbone en introduceren we position-interpolated rotary positional encoding om de expressieve kracht te behouden terwijl de robuustheid tegen hoogresolutie-invoer wordt verbeterd. Door beeldpaar-matchingkenmerken te integreren met intrinsieke invariantiemodellering, regresseert Dens3R nauwkeurig meerdere geometrische grootheden zoals oppervlaktenormalen en diepte, waardoor consistente geometrische waarneming van enkelvoudige naar meervoudige invoer wordt bereikt. Daarnaast stellen we een post-processingpijplijn voor die geometrisch consistente meervoudige inferentie ondersteunt. Uitgebreide experimenten demonstreren de superieure prestaties van Dens3R in verschillende dichte 3D-voorspellingstaken en benadrukken het potentieel voor bredere toepassingen.
English
Recent advances in dense 3D reconstruction have led to significant progress,
yet achieving accurate unified geometric prediction remains a major challenge.
Most existing methods are limited to predicting a single geometry quantity from
input images. However, geometric quantities such as depth, surface normals, and
point maps are inherently correlated, and estimating them in isolation often
fails to ensure consistency, thereby limiting both accuracy and practical
applicability. This motivates us to explore a unified framework that explicitly
models the structural coupling among different geometric properties to enable
joint regression. In this paper, we present Dens3R, a 3D foundation model
designed for joint geometric dense prediction and adaptable to a wide range of
downstream tasks. Dens3R adopts a two-stage training framework to progressively
build a pointmap representation that is both generalizable and intrinsically
invariant. Specifically, we design a lightweight shared encoder-decoder
backbone and introduce position-interpolated rotary positional encoding to
maintain expressive power while enhancing robustness to high-resolution inputs.
By integrating image-pair matching features with intrinsic invariance modeling,
Dens3R accurately regresses multiple geometric quantities such as surface
normals and depth, achieving consistent geometry perception from single-view to
multi-view inputs. Additionally, we propose a post-processing pipeline that
supports geometrically consistent multi-view inference. Extensive experiments
demonstrate the superior performance of Dens3R across various dense 3D
prediction tasks and highlight its potential for broader applications.