Dens3R : Un modèle fondamental pour la prédiction de géométrie 3D
Dens3R: A Foundation Model for 3D Geometry Prediction
July 22, 2025
papers.authors: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI
papers.abstract
Les avancées récentes dans la reconstruction dense 3D ont conduit à des progrès significatifs, mais la prédiction géométrique unifiée et précise reste un défi majeur. La plupart des méthodes existantes se limitent à prédire une seule quantité géométrique à partir d'images d'entrée. Cependant, des quantités géométriques telles que la profondeur, les normales de surface et les cartes de points sont intrinsèquement corrélées, et leur estimation isolée échoue souvent à garantir la cohérence, limitant ainsi à la fois la précision et l'applicabilité pratique. Cela nous motive à explorer un cadre unifié qui modélise explicitement le couplage structurel entre différentes propriétés géométriques pour permettre une régression conjointe. Dans cet article, nous présentons Dens3R, un modèle de fondation 3D conçu pour la prédiction dense géométrique conjointe et adaptable à une large gamme de tâches en aval. Dens3R adopte un cadre d'entraînement en deux étapes pour construire progressivement une représentation de carte de points à la fois généralisable et intrinsèquement invariante. Plus précisément, nous concevons un encodeur-décodeur partagé léger et introduisons un encodage positionnel rotatif interpolé pour maintenir la puissance expressive tout en améliorant la robustesse aux entrées à haute résolution. En intégrant des caractéristiques de correspondance d'images paires avec une modélisation d'invariance intrinsèque, Dens3R régresse avec précision plusieurs quantités géométriques telles que les normales de surface et la profondeur, permettant une perception géométrique cohérente des entrées monoculaires à multivues. De plus, nous proposons un pipeline de post-traitement qui prend en charge l'inférence multivue géométriquement cohérente. Des expériences approfondies démontrent la performance supérieure de Dens3R dans diverses tâches de prédiction dense 3D et mettent en lumière son potentiel pour des applications plus larges.
English
Recent advances in dense 3D reconstruction have led to significant progress,
yet achieving accurate unified geometric prediction remains a major challenge.
Most existing methods are limited to predicting a single geometry quantity from
input images. However, geometric quantities such as depth, surface normals, and
point maps are inherently correlated, and estimating them in isolation often
fails to ensure consistency, thereby limiting both accuracy and practical
applicability. This motivates us to explore a unified framework that explicitly
models the structural coupling among different geometric properties to enable
joint regression. In this paper, we present Dens3R, a 3D foundation model
designed for joint geometric dense prediction and adaptable to a wide range of
downstream tasks. Dens3R adopts a two-stage training framework to progressively
build a pointmap representation that is both generalizable and intrinsically
invariant. Specifically, we design a lightweight shared encoder-decoder
backbone and introduce position-interpolated rotary positional encoding to
maintain expressive power while enhancing robustness to high-resolution inputs.
By integrating image-pair matching features with intrinsic invariance modeling,
Dens3R accurately regresses multiple geometric quantities such as surface
normals and depth, achieving consistent geometry perception from single-view to
multi-view inputs. Additionally, we propose a post-processing pipeline that
supports geometrically consistent multi-view inference. Extensive experiments
demonstrate the superior performance of Dens3R across various dense 3D
prediction tasks and highlight its potential for broader applications.