ChatPaper.aiChatPaper

Dens3R: Базисная модель для предсказания 3D-геометрии

Dens3R: A Foundation Model for 3D Geometry Prediction

July 22, 2025
Авторы: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu
cs.AI

Аннотация

Последние достижения в области плотного 3D-реконструирования привели к значительному прогрессу, однако достижение точного унифицированного геометрического предсказания остается серьезной проблемой. Большинство существующих методов ограничиваются предсказанием одной геометрической величины на основе входных изображений. Однако такие геометрические величины, как глубина, нормали поверхности и карты точек, по своей природе взаимосвязаны, и их изолированное оценивание часто не обеспечивает согласованности, что ограничивает как точность, так и практическую применимость. Это мотивирует нас исследовать унифицированную структуру, которая явно моделирует структурную связь между различными геометрическими свойствами для совместного регрессионного анализа. В данной статье мы представляем Dens3R — базовую модель для 3D, предназначенную для совместного плотного геометрического предсказания и адаптируемую к широкому спектру последующих задач. Dens3R использует двухэтапную структуру обучения для постепенного построения представления карты точек, которое является как обобщаемым, так и внутренне инвариантным. В частности, мы разрабатываем легковесный общий кодировщик-декодировщик и вводим позиционно-интерполированное ротационное позиционное кодирование для сохранения выразительной мощности при повышении устойчивости к высокоразрешающим входным данным. Интегрируя функции сопоставления пар изображений с моделированием внутренней инвариантности, Dens3R точно регрессирует несколько геометрических величин, таких как нормали поверхности и глубина, достигая согласованного восприятия геометрии от однокадровых до многокадровых входных данных. Кроме того, мы предлагаем постобрабатывающий конвейер, поддерживающий геометрически согласованный многокадровый вывод. Многочисленные эксперименты демонстрируют превосходную производительность Dens3R в различных задачах плотного 3D-предсказания и подчеркивают его потенциал для более широкого применения.
English
Recent advances in dense 3D reconstruction have led to significant progress, yet achieving accurate unified geometric prediction remains a major challenge. Most existing methods are limited to predicting a single geometry quantity from input images. However, geometric quantities such as depth, surface normals, and point maps are inherently correlated, and estimating them in isolation often fails to ensure consistency, thereby limiting both accuracy and practical applicability. This motivates us to explore a unified framework that explicitly models the structural coupling among different geometric properties to enable joint regression. In this paper, we present Dens3R, a 3D foundation model designed for joint geometric dense prediction and adaptable to a wide range of downstream tasks. Dens3R adopts a two-stage training framework to progressively build a pointmap representation that is both generalizable and intrinsically invariant. Specifically, we design a lightweight shared encoder-decoder backbone and introduce position-interpolated rotary positional encoding to maintain expressive power while enhancing robustness to high-resolution inputs. By integrating image-pair matching features with intrinsic invariance modeling, Dens3R accurately regresses multiple geometric quantities such as surface normals and depth, achieving consistent geometry perception from single-view to multi-view inputs. Additionally, we propose a post-processing pipeline that supports geometrically consistent multi-view inference. Extensive experiments demonstrate the superior performance of Dens3R across various dense 3D prediction tasks and highlight its potential for broader applications.
PDF52August 5, 2025