ChatPaper.aiChatPaper

Profundidade Qualquer Coisa com Qualquer Prior

Depth Anything with Any Prior

May 15, 2025
Autores: Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
cs.AI

Resumo

Este trabalho apresenta o Prior Depth Anything, um framework que combina informações métricas incompletas, porém precisas, em medições de profundidade com estruturas geométricas relativas, mas completas, em previsões de profundidade, gerando mapas de profundidade métricos precisos, densos e detalhados para qualquer cena. Para isso, projetamos um pipeline de refinamento progressivo para integrar gradualmente as duas fontes complementares de profundidade. Primeiro, introduzimos o alinhamento métrico em nível de pixel e a ponderação consciente da distância para preencher previamente diversas métricas, utilizando explicitamente a previsão de profundidade. Isso reduz efetivamente a lacuna de domínio entre os padrões anteriores, melhorando a generalização em diversos cenários. Em segundo lugar, desenvolvemos um modelo de estimativa de profundidade monocondicional (MDE) para refinar o ruído inerente das métricas de profundidade. Ao condicionar o modelo ao preenchimento prévio normalizado e à previsão, ele implicitamente mescla as duas fontes complementares de profundidade. Nosso modelo demonstra uma impressionante generalização zero-shot em tarefas de completamento de profundidade, super-resolução e inpainting em 7 conjuntos de dados do mundo real, igualando ou até superando métodos anteriores específicos para cada tarefa. Mais importante ainda, ele se sai bem em métricas mistas desafiadoras e não vistas anteriormente e permite melhorias em tempo de teste ao alternar modelos de previsão, oferecendo uma flexível troca entre precisão e eficiência, enquanto evolui com os avanços nos modelos MDE.
English
This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.
PDF122May 16, 2025