Depth Anything con Qualsiasi Prior
Depth Anything with Any Prior
May 15, 2025
Autori: Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
cs.AI
Abstract
Questo lavoro presenta Prior Depth Anything, un framework che combina informazioni metriche incomplete ma precise nella misurazione della profondità con strutture geometriche relative ma complete nella predizione della profondità, generando mappe metriche della profondità accurate, dense e dettagliate per qualsiasi scena. A tal fine, progettiamo una pipeline a granularità crescente per integrare progressivamente le due fonti complementari di profondità. In primo luogo, introduciamo un allineamento metrico a livello di pixel e una ponderazione basata sulla distanza per pre-riempire diversi prior metrici utilizzando esplicitamente la predizione della profondità. Ciò riduce efficacemente il divario di dominio tra i pattern precedenti, migliorando la generalizzazione in vari scenari. In secondo luogo, sviluppiamo un modello di stima della profondità monoculare (MDE) condizionato per affinare il rumore intrinseco dei prior di profondità. Condizionando sul prior pre-riempito normalizzato e sulla predizione, il modello unisce ulteriormente in modo implicito le due fonti complementari di profondità. Il nostro modello dimostra un'impressionante generalizzazione zero-shot attraverso il completamento della profondità, la super-risoluzione e l'inpainting su 7 dataset del mondo reale, eguagliando o addirittura superando i precedenti metodi specifici per ogni task. Ancora più importante, si comporta bene su prior misti e non visti, e consente miglioramenti al momento del test cambiando i modelli di predizione, offrendo un compromesso flessibile tra accuratezza ed efficienza mentre evolve con i progressi nei modelli MDE.
English
This work presents Prior Depth Anything, a framework that combines incomplete
but precise metric information in depth measurement with relative but complete
geometric structures in depth prediction, generating accurate, dense, and
detailed metric depth maps for any scene. To this end, we design a
coarse-to-fine pipeline to progressively integrate the two complementary depth
sources. First, we introduce pixel-level metric alignment and distance-aware
weighting to pre-fill diverse metric priors by explicitly using depth
prediction. It effectively narrows the domain gap between prior patterns,
enhancing generalization across varying scenarios. Second, we develop a
conditioned monocular depth estimation (MDE) model to refine the inherent noise
of depth priors. By conditioning on the normalized pre-filled prior and
prediction, the model further implicitly merges the two complementary depth
sources. Our model showcases impressive zero-shot generalization across depth
completion, super-resolution, and inpainting over 7 real-world datasets,
matching or even surpassing previous task-specific methods. More importantly,
it performs well on challenging, unseen mixed priors and enables test-time
improvements by switching prediction models, providing a flexible
accuracy-efficiency trade-off while evolving with advancements in MDE models.