Dens3R: Um Modelo Base para Predição de Geometria 3D

Resumo

Avanços recentes na reconstrução densa 3D levaram a progressos significativos, mas alcançar uma previsão geométrica unificada e precisa continua sendo um grande desafio. A maioria dos métodos existentes se limita a prever uma única quantidade geométrica a partir de imagens de entrada. No entanto, quantidades geométricas como profundidade, normais de superfície e mapas de pontos são inerentemente correlacionadas, e estimá-las isoladamente frequentemente falha em garantir consistência, limitando tanto a precisão quanto a aplicabilidade prática. Isso nos motiva a explorar uma estrutura unificada que modela explicitamente o acoplamento estrutural entre diferentes propriedades geométricas para permitir regressão conjunta. Neste artigo, apresentamos o Dens3R, um modelo de base 3D projetado para previsão densa geométrica conjunta e adaptável a uma ampla gama de tarefas subsequentes. O Dens3R adota uma estrutura de treinamento em duas etapas para construir progressivamente uma representação de mapa de pontos que é tanto generalizável quanto intrinsecamente invariante. Especificamente, projetamos uma estrutura leve compartilhada de codificador-decodificador e introduzimos codificação posicional rotacional interpolada por posição para manter o poder expressivo enquanto aumenta a robustez a entradas de alta resolução. Ao integrar características de correspondência de pares de imagens com modelagem de invariância intrínseca, o Dens3R regride com precisão múltiplas quantidades geométricas, como normais de superfície e profundidade, alcançando percepção geométrica consistente de entradas de visão única para visão múltipla. Além disso, propomos um pipeline de pós-processamento que suporta inferência de visão múltipla geometricamente consistente. Experimentos extensivos demonstram o desempenho superior do Dens3R em várias tarefas de previsão densa 3D e destacam seu potencial para aplicações mais amplas.

English

Recent advances in dense 3D reconstruction have led to significant progress, yet achieving accurate unified geometric prediction remains a major challenge. Most existing methods are limited to predicting a single geometry quantity from input images. However, geometric quantities such as depth, surface normals, and point maps are inherently correlated, and estimating them in isolation often fails to ensure consistency, thereby limiting both accuracy and practical applicability. This motivates us to explore a unified framework that explicitly models the structural coupling among different geometric properties to enable joint regression. In this paper, we present Dens3R, a 3D foundation model designed for joint geometric dense prediction and adaptable to a wide range of downstream tasks. Dens3R adopts a two-stage training framework to progressively build a pointmap representation that is both generalizable and intrinsically invariant. Specifically, we design a lightweight shared encoder-decoder backbone and introduce position-interpolated rotary positional encoding to maintain expressive power while enhancing robustness to high-resolution inputs. By integrating image-pair matching features with intrinsic invariance modeling, Dens3R accurately regresses multiple geometric quantities such as surface normals and depth, achieving consistent geometry perception from single-view to multi-view inputs. Additionally, we propose a post-processing pipeline that supports geometrically consistent multi-view inference. Extensive experiments demonstrate the superior performance of Dens3R across various dense 3D prediction tasks and highlight its potential for broader applications.

Dens3R: Um Modelo Base para Predição de Geometria 3D

Dens3R: A Foundation Model for 3D Geometry Prediction

Resumo

Support