Profundidad Cualquier Cosa con Cualquier Prior

Resumen

Este trabajo presenta Prior Depth Anything, un marco que combina información métrica incompleta pero precisa en la medición de profundidad con estructuras geométricas relativas pero completas en la predicción de profundidad, generando mapas de profundidad métricos precisos, densos y detallados para cualquier escena. Para ello, diseñamos un pipeline de coarse-to-fine que integra progresivamente las dos fuentes complementarias de profundidad. Primero, introducimos una alineación métrica a nivel de píxel y una ponderación basada en la distancia para pre-llenar diversos priores métricos utilizando explícitamente la predicción de profundidad. Esto reduce efectivamente la brecha de dominio entre los patrones previos, mejorando la generalización en diversos escenarios. Segundo, desarrollamos un modelo de estimación monocular de profundidad (MDE) condicionado para refinar el ruido inherente de los priores de profundidad. Al condicionar el modelo con el prior pre-llenado normalizado y la predicción, este fusiona implícitamente las dos fuentes complementarias de profundidad. Nuestro modelo demuestra una impresionante generalización zero-shot en tareas de completado de profundidad, super-resolución e inpainting en 7 conjuntos de datos del mundo real, igualando o incluso superando métodos anteriores específicos para cada tarea. Más importante aún, funciona bien con priores mixtos desafiantes y no vistos, y permite mejoras en tiempo de prueba al cambiar los modelos de predicción, ofreciendo un equilibrio flexible entre precisión y eficiencia mientras evoluciona con los avances en los modelos MDE.

English

This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.

Profundidad Cualquier Cosa con Cualquier Prior

Depth Anything with Any Prior

Resumen

Support