Dens3R: Ein Grundlagenmodell für die Vorhersage von 3D-Geometrie
Dens3R: A Foundation Model for 3D Geometry Prediction
July 22, 2025
papers.authors: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI
papers.abstract
Jüngste Fortschritte in der dichten 3D-Rekonstruktion haben zu bedeutenden Fortschritten geführt, doch die präzise einheitliche geometrische Vorhersage bleibt eine große Herausforderung. Die meisten bestehenden Methoden beschränken sich darauf, eine einzelne geometrische Größe aus Eingabebildern vorherzusagen. Geometrische Größen wie Tiefe, Oberflächennormalen und Punktkarten sind jedoch inhärent miteinander verknüpft, und ihre isolierte Schätzung gewährleistet oft keine Konsistenz, was sowohl die Genauigkeit als auch die praktische Anwendbarkeit einschränkt. Dies motiviert uns, ein einheitliches Framework zu erforschen, das die strukturelle Kopplung zwischen verschiedenen geometrischen Eigenschaften explizit modelliert, um eine gemeinsame Regression zu ermöglichen. In diesem Artikel stellen wir Dens3R vor, ein 3D-Foundation-Modell, das für die gemeinsame dichte geometrische Vorhersage entwickelt wurde und sich an eine Vielzahl von Downstream-Aufgaben anpassen lässt. Dens3R verwendet ein zweistufiges Trainingsframework, um schrittweise eine Punktkartendarstellung zu erstellen, die sowohl verallgemeinerbar als auch intrinsisch invariant ist. Insbesondere entwerfen wir ein leichtgewichtiges, gemeinsam genutztes Encoder-Decoder-Backbone und führen eine positionsinterpolierte rotatorische Positionskodierung ein, um die Ausdruckskraft zu erhalten und gleichzeitig die Robustheit gegenüber hochauflösenden Eingaben zu verbessern. Durch die Integration von Bildpaar-Matching-Merkmalen mit der Modellierung intrinsischer Invarianz regrediert Dens3R präzise mehrere geometrische Größen wie Oberflächennormalen und Tiefe und erreicht eine konsistente geometrische Wahrnehmung von Einzelbild- zu Mehrbild-Eingaben. Zusätzlich schlagen wir eine Nachbearbeitungspipeline vor, die eine geometrisch konsistente Mehrbild-Inferenz unterstützt. Umfangreiche Experimente demonstrieren die überlegene Leistung von Dens3R in verschiedenen dichten 3D-Vorhersageaufgaben und heben sein Potenzial für breitere Anwendungen hervor.
English
Recent advances in dense 3D reconstruction have led to significant progress,
yet achieving accurate unified geometric prediction remains a major challenge.
Most existing methods are limited to predicting a single geometry quantity from
input images. However, geometric quantities such as depth, surface normals, and
point maps are inherently correlated, and estimating them in isolation often
fails to ensure consistency, thereby limiting both accuracy and practical
applicability. This motivates us to explore a unified framework that explicitly
models the structural coupling among different geometric properties to enable
joint regression. In this paper, we present Dens3R, a 3D foundation model
designed for joint geometric dense prediction and adaptable to a wide range of
downstream tasks. Dens3R adopts a two-stage training framework to progressively
build a pointmap representation that is both generalizable and intrinsically
invariant. Specifically, we design a lightweight shared encoder-decoder
backbone and introduce position-interpolated rotary positional encoding to
maintain expressive power while enhancing robustness to high-resolution inputs.
By integrating image-pair matching features with intrinsic invariance modeling,
Dens3R accurately regresses multiple geometric quantities such as surface
normals and depth, achieving consistent geometry perception from single-view to
multi-view inputs. Additionally, we propose a post-processing pipeline that
supports geometrically consistent multi-view inference. Extensive experiments
demonstrate the superior performance of Dens3R across various dense 3D
prediction tasks and highlight its potential for broader applications.