От любого к полному: Одностэпное построение карты глубины с помощью Depth Anything
Any to Full: Prompting Depth Anything for Depth Completion in One Stage
March 5, 2026
Авторы: Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang
cs.AI
Аннотация
Точное и плотное определение глубины крайне важно для восприятия роботами, однако серийные сенсоры часто дают разреженные или неполные измерения из-за аппаратных ограничений. Существующие методы завершения глубины, основанные на слиянии RGB-D данных, обучают априорные представления, совместно обусловленные распределением RGB-данных при обучении и специфическими паттернами глубины, что ограничивает обобщающую способность на новые домены и устойчивость к различным паттернам глубины. Недавние подходы используют модели монокулярного оценивания глубины (MDE) для введения доменно-независимых геометрических априорных знаний, однако современные двухэтапные стратегии интеграции, основанные на явном выравнивании относительной шкалы в метрическую, требуют дополнительных вычислений и вносят структурные искажения. В связи с этим мы представляем Any2Full — одноэтапный, доменно-независимый и паттерн-агностический фреймворк, который переформулирует задачу завершения как адаптацию предобученной MDE-модели с помощью масштабирующих промптов. Для работы с различными уровнями разреженности глубины и нерегулярными пространственными распределениями мы разработали Масштабно-Осознающий Кодировщик Промптов. Он извлекает информацию о масштабе из разреженных входных данных и преобразует её в унифицированные масштабные промпты, направляя MDE-модель к глобально масштабно-согласованным предсказаниям, сохраняя при этом её геометрические априорные знания. Многочисленные эксперименты демонстрируют, что Any2Full достигает превосходной устойчивости и эффективности. Метод превосходит OMNI-DC на 32.2% по усреднённому AbsREL и обеспечивает ускорение в 1.4 раза по сравнению с PriorDA при использовании того же MDE-бэкбона, устанавливая новую парадигму для универсального завершения глубины. Код и контрольные точки доступны по адресу https://github.com/zhiyuandaily/Any2Full.
English
Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.