ChatPaper.aiChatPaper

Depth Anything met Elke Prior

Depth Anything with Any Prior

May 15, 2025
Auteurs: Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
cs.AI

Samenvatting

Dit werk presenteert Prior Depth Anything, een raamwerk dat onvolledige maar precieze metrische informatie in dieptemeting combineert met relatieve maar complete geometrische structuren in dieptevoorspelling, waardoor nauwkeurige, dichte en gedetailleerde metrische dieptekaarten voor elke scène worden gegenereerd. Hiertoe ontwerpen we een grof-naar-fijn pijplijn om de twee complementaire dieptebronnen geleidelijk te integreren. Eerst introduceren we pixel-niveau metrische uitlijning en afstandsbewuste weging om diverse metrische priors vooraf in te vullen door expliciet gebruik te maken van dieptevoorspelling. Dit verkleint effectief het domeingat tussen priorpatronen, wat de generalisatie over verschillende scenario's verbetert. Ten tweede ontwikkelen we een geconditioneerd monocular depth estimation (MDE)-model om het inherente ruisniveau van dieptepriors te verfijnen. Door te conditioneren op de genormaliseerde vooraf ingevulde prior en voorspelling, integreert het model de twee complementaire dieptebronnen verder impliciet. Ons model toont indrukwekkende zero-shot generalisatie over dieptecompletie, superresolutie en inpainting over 7 real-world datasets, waarbij het eerdere taakspecifieke methoden evenaart of zelfs overtreft. Belangrijker nog, het presteert goed op uitdagende, onbekende gemengde priors en maakt testtijdverbeteringen mogelijk door voorspellingsmodellen te wisselen, wat een flexibele nauwkeurigheid-efficiëntie afweging biedt terwijl het meegaat met de vooruitgang in MDE-modellen.
English
This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.
PDF122May 16, 2025