ChatPaper.aiChatPaper

Dens3R : Un modèle fondamental pour la prédiction de géométrie 3D

Dens3R: A Foundation Model for 3D Geometry Prediction

July 22, 2025
papers.authors: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI

papers.abstract

Les avancées récentes dans la reconstruction dense 3D ont conduit à des progrès significatifs, mais la prédiction géométrique unifiée et précise reste un défi majeur. La plupart des méthodes existantes se limitent à prédire une seule quantité géométrique à partir d'images d'entrée. Cependant, des quantités géométriques telles que la profondeur, les normales de surface et les cartes de points sont intrinsèquement corrélées, et leur estimation isolée échoue souvent à garantir la cohérence, limitant ainsi à la fois la précision et l'applicabilité pratique. Cela nous motive à explorer un cadre unifié qui modélise explicitement le couplage structurel entre différentes propriétés géométriques pour permettre une régression conjointe. Dans cet article, nous présentons Dens3R, un modèle de fondation 3D conçu pour la prédiction dense géométrique conjointe et adaptable à une large gamme de tâches en aval. Dens3R adopte un cadre d'entraînement en deux étapes pour construire progressivement une représentation de carte de points à la fois généralisable et intrinsèquement invariante. Plus précisément, nous concevons un encodeur-décodeur partagé léger et introduisons un encodage positionnel rotatif interpolé pour maintenir la puissance expressive tout en améliorant la robustesse aux entrées à haute résolution. En intégrant des caractéristiques de correspondance d'images paires avec une modélisation d'invariance intrinsèque, Dens3R régresse avec précision plusieurs quantités géométriques telles que les normales de surface et la profondeur, permettant une perception géométrique cohérente des entrées monoculaires à multivues. De plus, nous proposons un pipeline de post-traitement qui prend en charge l'inférence multivue géométriquement cohérente. Des expériences approfondies démontrent la performance supérieure de Dens3R dans diverses tâches de prédiction dense 3D et mettent en lumière son potentiel pour des applications plus larges.
English
Recent advances in dense 3D reconstruction have led to significant progress, yet achieving accurate unified geometric prediction remains a major challenge. Most existing methods are limited to predicting a single geometry quantity from input images. However, geometric quantities such as depth, surface normals, and point maps are inherently correlated, and estimating them in isolation often fails to ensure consistency, thereby limiting both accuracy and practical applicability. This motivates us to explore a unified framework that explicitly models the structural coupling among different geometric properties to enable joint regression. In this paper, we present Dens3R, a 3D foundation model designed for joint geometric dense prediction and adaptable to a wide range of downstream tasks. Dens3R adopts a two-stage training framework to progressively build a pointmap representation that is both generalizable and intrinsically invariant. Specifically, we design a lightweight shared encoder-decoder backbone and introduce position-interpolated rotary positional encoding to maintain expressive power while enhancing robustness to high-resolution inputs. By integrating image-pair matching features with intrinsic invariance modeling, Dens3R accurately regresses multiple geometric quantities such as surface normals and depth, achieving consistent geometry perception from single-view to multi-view inputs. Additionally, we propose a post-processing pipeline that supports geometrically consistent multi-view inference. Extensive experiments demonstrate the superior performance of Dens3R across various dense 3D prediction tasks and highlight its potential for broader applications.
PDF52August 5, 2025