Dens3R: Un Modelo Fundacional para la Predicción de Geometría 3D
Dens3R: A Foundation Model for 3D Geometry Prediction
July 22, 2025
Autores: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI
Resumen
Los recientes avances en la reconstrucción densa 3D han llevado a un progreso significativo, aunque lograr una predicción geométrica unificada y precisa sigue siendo un gran desafío. La mayoría de los métodos existentes se limitan a predecir una única cantidad geométrica a partir de imágenes de entrada. Sin embargo, cantidades geométricas como la profundidad, las normales de superficie y los mapas de puntos están intrínsecamente correlacionados, y estimarlas de forma aislada a menudo no garantiza consistencia, lo que limita tanto la precisión como la aplicabilidad práctica. Esto nos motiva a explorar un marco unificado que modele explícitamente el acoplamiento estructural entre diferentes propiedades geométricas para permitir una regresión conjunta. En este artículo, presentamos Dens3R, un modelo fundacional 3D diseñado para la predicción densa geométrica conjunta y adaptable a una amplia gama de tareas posteriores. Dens3R adopta un marco de entrenamiento de dos etapas para construir progresivamente una representación de mapas de puntos que sea tanto generalizable como intrínsecamente invariante. Específicamente, diseñamos una arquitectura ligera de codificador-decodificador compartido e introducimos codificación posicional rotatoria interpolada para mantener el poder expresivo mientras se mejora la robustez frente a entradas de alta resolución. Al integrar características de emparejamiento de pares de imágenes con el modelado de invariancia intrínseca, Dens3R regresa con precisión múltiples cantidades geométricas, como normales de superficie y profundidad, logrando una percepción geométrica consistente desde entradas de vista única hasta multivista. Además, proponemos una canalización de postprocesamiento que soporta inferencia multivista geométricamente consistente. Experimentos extensos demuestran el rendimiento superior de Dens3R en diversas tareas de predicción densa 3D y resaltan su potencial para aplicaciones más amplias.
English
Recent advances in dense 3D reconstruction have led to significant progress,
yet achieving accurate unified geometric prediction remains a major challenge.
Most existing methods are limited to predicting a single geometry quantity from
input images. However, geometric quantities such as depth, surface normals, and
point maps are inherently correlated, and estimating them in isolation often
fails to ensure consistency, thereby limiting both accuracy and practical
applicability. This motivates us to explore a unified framework that explicitly
models the structural coupling among different geometric properties to enable
joint regression. In this paper, we present Dens3R, a 3D foundation model
designed for joint geometric dense prediction and adaptable to a wide range of
downstream tasks. Dens3R adopts a two-stage training framework to progressively
build a pointmap representation that is both generalizable and intrinsically
invariant. Specifically, we design a lightweight shared encoder-decoder
backbone and introduce position-interpolated rotary positional encoding to
maintain expressive power while enhancing robustness to high-resolution inputs.
By integrating image-pair matching features with intrinsic invariance modeling,
Dens3R accurately regresses multiple geometric quantities such as surface
normals and depth, achieving consistent geometry perception from single-view to
multi-view inputs. Additionally, we propose a post-processing pipeline that
supports geometrically consistent multi-view inference. Extensive experiments
demonstrate the superior performance of Dens3R across various dense 3D
prediction tasks and highlight its potential for broader applications.