Dens3R: Un Modello Fondamentale per la Predizione della Geometria 3D
Dens3R: A Foundation Model for 3D Geometry Prediction
July 22, 2025
Autori: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI
Abstract
I recenti progressi nella ricostruzione 3D densa hanno portato a significativi avanzamenti, ma il raggiungimento di una previsione geometrica unificata e accurata rimane una sfida importante. La maggior parte dei metodi esistenti si limita a prevedere una singola quantità geometrica a partire da immagini di input. Tuttavia, quantità geometriche come profondità, normali di superficie e mappe di punti sono intrinsecamente correlate, e la loro stima isolata spesso non garantisce coerenza, limitando così sia l'accuratezza che l'applicabilità pratica. Ciò ci motiva a esplorare un framework unificato che modelli esplicitamente l'accoppiamento strutturale tra diverse proprietà geometriche per consentire una regressione congiunta. In questo articolo, presentiamo Dens3R, un modello di base 3D progettato per la previsione densa geometrica congiunta e adattabile a un'ampia gamma di task downstream. Dens3R adotta un framework di addestramento in due fasi per costruire progressivamente una rappresentazione di mappa di punti che sia sia generalizzabile che intrinsecamente invariante. Nello specifico, progettiamo un'architettura leggera condivisa encoder-decoder e introduciamo un posizionamento interpolato rotazionale per mantenere il potere espressivo migliorando al contempo la robustezza agli input ad alta risoluzione. Integrando le caratteristiche di corrispondenza tra coppie di immagini con la modellazione dell'invarianza intrinseca, Dens3R regredisce accuratamente multiple quantità geometriche come normali di superficie e profondità, ottenendo una percezione geometrica coerente da input a vista singola a multi-vista. Inoltre, proponiamo una pipeline di post-elaborazione che supporta l'inferenza multi-vista geometricamente coerente. Esperimenti estensivi dimostrano le prestazioni superiori di Dens3R in vari task di previsione densa 3D e ne evidenziano il potenziale per applicazioni più ampie.
English
Recent advances in dense 3D reconstruction have led to significant progress,
yet achieving accurate unified geometric prediction remains a major challenge.
Most existing methods are limited to predicting a single geometry quantity from
input images. However, geometric quantities such as depth, surface normals, and
point maps are inherently correlated, and estimating them in isolation often
fails to ensure consistency, thereby limiting both accuracy and practical
applicability. This motivates us to explore a unified framework that explicitly
models the structural coupling among different geometric properties to enable
joint regression. In this paper, we present Dens3R, a 3D foundation model
designed for joint geometric dense prediction and adaptable to a wide range of
downstream tasks. Dens3R adopts a two-stage training framework to progressively
build a pointmap representation that is both generalizable and intrinsically
invariant. Specifically, we design a lightweight shared encoder-decoder
backbone and introduce position-interpolated rotary positional encoding to
maintain expressive power while enhancing robustness to high-resolution inputs.
By integrating image-pair matching features with intrinsic invariance modeling,
Dens3R accurately regresses multiple geometric quantities such as surface
normals and depth, achieving consistent geometry perception from single-view to
multi-view inputs. Additionally, we propose a post-processing pipeline that
supports geometrically consistent multi-view inference. Extensive experiments
demonstrate the superior performance of Dens3R across various dense 3D
prediction tasks and highlight its potential for broader applications.