Глубина Anything с любым априорным знанием

Аннотация

В данной работе представлен Prior Depth Anything – фреймворк, который объединяет неполную, но точную метрическую информацию в измерениях глубины с относительными, но полными геометрическими структурами в предсказании глубины, генерируя точные, плотные и детализированные метрические карты глубины для любой сцены. Для этого мы разработали поэтапный подход от грубого к точному, чтобы постепенно интегрировать два комплементарных источника данных о глубине. Во-первых, мы вводим пиксельную метрическую выравнивание и взвешивание с учетом расстояния для предварительного заполнения разнообразных метрических приоритетов, явно используя предсказание глубины. Это эффективно сокращает разрыв между доменами приоритетных паттернов, улучшая обобщение для различных сценариев. Во-вторых, мы разработали условную модель монохромного оценивания глубины (MDE) для уточнения внутреннего шума приоритетов глубины. Условившись на нормализованных предварительно заполненных приоритетах и предсказаниях, модель дополнительно неявно объединяет два комплементарных источника данных о глубине. Наша модель демонстрирует впечатляющее обобщение с нулевым обучением (zero-shot) в задачах завершения глубины, супер-разрешения и восстановления на 7 реальных наборах данных, соответствуя или даже превосходя предыдущие методы, специализированные для конкретных задач. Более того, она хорошо справляется с сложными, ранее не встречавшимися смешанными приоритетами и позволяет улучшать результаты во время тестирования путем переключения моделей предсказания, обеспечивая гибкий компромисс между точностью и эффективностью, одновременно развиваясь с прогрессом в моделях MDE.

English

This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.

Глубина Anything с любым априорным знанием

Depth Anything with Any Prior

Аннотация

Support