Dens3R: Een fundamenteel model voor 3D-geometrievoorspelling

Samenvatting

Recente vooruitgang in dichte 3D-reconstructie heeft tot aanzienlijke vooruitgang geleid, maar het bereiken van nauwkeurige, verenigde geometrische voorspelling blijft een grote uitdaging. De meeste bestaande methoden zijn beperkt tot het voorspellen van een enkele geometrische grootheid uit invoerbeelden. Echter, geometrische grootheden zoals diepte, oppervlaktenormalen en puntkaarten zijn inherent gecorreleerd, en het afzonderlijk schatten ervan zorgt vaak niet voor consistentie, wat zowel de nauwkeurigheid als de praktische toepasbaarheid beperkt. Dit motiveert ons om een verenigd raamwerk te verkennen dat expliciet de structurele koppeling tussen verschillende geometrische eigenschappen modelleert om gezamenlijke regressie mogelijk te maken. In dit artikel presenteren we Dens3R, een 3D-fundamentmodel ontworpen voor gezamenlijke geometrische dichte voorspelling en aanpasbaar aan een breed scala aan downstreamtaken. Dens3R neemt een tweestaps trainingsraamwerk aan om progressief een puntkaartrepresentatie op te bouwen die zowel generaliseerbaar als intrinsiek invariant is. Specifiek ontwerpen we een lichtgewicht gedeelde encoder-decoder-backbone en introduceren we position-interpolated rotary positional encoding om de expressieve kracht te behouden terwijl de robuustheid tegen hoogresolutie-invoer wordt verbeterd. Door beeldpaar-matchingkenmerken te integreren met intrinsieke invariantiemodellering, regresseert Dens3R nauwkeurig meerdere geometrische grootheden zoals oppervlaktenormalen en diepte, waardoor consistente geometrische waarneming van enkelvoudige naar meervoudige invoer wordt bereikt. Daarnaast stellen we een post-processingpijplijn voor die geometrisch consistente meervoudige inferentie ondersteunt. Uitgebreide experimenten demonstreren de superieure prestaties van Dens3R in verschillende dichte 3D-voorspellingstaken en benadrukken het potentieel voor bredere toepassingen.

English

Recent advances in dense 3D reconstruction have led to significant progress, yet achieving accurate unified geometric prediction remains a major challenge. Most existing methods are limited to predicting a single geometry quantity from input images. However, geometric quantities such as depth, surface normals, and point maps are inherently correlated, and estimating them in isolation often fails to ensure consistency, thereby limiting both accuracy and practical applicability. This motivates us to explore a unified framework that explicitly models the structural coupling among different geometric properties to enable joint regression. In this paper, we present Dens3R, a 3D foundation model designed for joint geometric dense prediction and adaptable to a wide range of downstream tasks. Dens3R adopts a two-stage training framework to progressively build a pointmap representation that is both generalizable and intrinsically invariant. Specifically, we design a lightweight shared encoder-decoder backbone and introduce position-interpolated rotary positional encoding to maintain expressive power while enhancing robustness to high-resolution inputs. By integrating image-pair matching features with intrinsic invariance modeling, Dens3R accurately regresses multiple geometric quantities such as surface normals and depth, achieving consistent geometry perception from single-view to multi-view inputs. Additionally, we propose a post-processing pipeline that supports geometrically consistent multi-view inference. Extensive experiments demonstrate the superior performance of Dens3R across various dense 3D prediction tasks and highlight its potential for broader applications.

Dens3R: Een fundamenteel model voor 3D-geometrievoorspelling

Dens3R: A Foundation Model for 3D Geometry Prediction

Samenvatting

Support