Dens3R: Um Modelo Base para Predição de Geometria 3D
Dens3R: A Foundation Model for 3D Geometry Prediction
July 22, 2025
Autores: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI
Resumo
Avanços recentes na reconstrução densa 3D levaram a progressos significativos, mas alcançar uma previsão geométrica unificada e precisa continua sendo um grande desafio. A maioria dos métodos existentes se limita a prever uma única quantidade geométrica a partir de imagens de entrada. No entanto, quantidades geométricas como profundidade, normais de superfície e mapas de pontos são inerentemente correlacionadas, e estimá-las isoladamente frequentemente falha em garantir consistência, limitando tanto a precisão quanto a aplicabilidade prática. Isso nos motiva a explorar uma estrutura unificada que modela explicitamente o acoplamento estrutural entre diferentes propriedades geométricas para permitir regressão conjunta. Neste artigo, apresentamos o Dens3R, um modelo de base 3D projetado para previsão densa geométrica conjunta e adaptável a uma ampla gama de tarefas subsequentes. O Dens3R adota uma estrutura de treinamento em duas etapas para construir progressivamente uma representação de mapa de pontos que é tanto generalizável quanto intrinsecamente invariante. Especificamente, projetamos uma estrutura leve compartilhada de codificador-decodificador e introduzimos codificação posicional rotacional interpolada por posição para manter o poder expressivo enquanto aumenta a robustez a entradas de alta resolução. Ao integrar características de correspondência de pares de imagens com modelagem de invariância intrínseca, o Dens3R regride com precisão múltiplas quantidades geométricas, como normais de superfície e profundidade, alcançando percepção geométrica consistente de entradas de visão única para visão múltipla. Além disso, propomos um pipeline de pós-processamento que suporta inferência de visão múltipla geometricamente consistente. Experimentos extensivos demonstram o desempenho superior do Dens3R em várias tarefas de previsão densa 3D e destacam seu potencial para aplicações mais amplas.
English
Recent advances in dense 3D reconstruction have led to significant progress,
yet achieving accurate unified geometric prediction remains a major challenge.
Most existing methods are limited to predicting a single geometry quantity from
input images. However, geometric quantities such as depth, surface normals, and
point maps are inherently correlated, and estimating them in isolation often
fails to ensure consistency, thereby limiting both accuracy and practical
applicability. This motivates us to explore a unified framework that explicitly
models the structural coupling among different geometric properties to enable
joint regression. In this paper, we present Dens3R, a 3D foundation model
designed for joint geometric dense prediction and adaptable to a wide range of
downstream tasks. Dens3R adopts a two-stage training framework to progressively
build a pointmap representation that is both generalizable and intrinsically
invariant. Specifically, we design a lightweight shared encoder-decoder
backbone and introduce position-interpolated rotary positional encoding to
maintain expressive power while enhancing robustness to high-resolution inputs.
By integrating image-pair matching features with intrinsic invariance modeling,
Dens3R accurately regresses multiple geometric quantities such as surface
normals and depth, achieving consistent geometry perception from single-view to
multi-view inputs. Additionally, we propose a post-processing pipeline that
supports geometrically consistent multi-view inference. Extensive experiments
demonstrate the superior performance of Dens3R across various dense 3D
prediction tasks and highlight its potential for broader applications.