Profundidad en Cualquier Condición
Depth Anything at Any Condition
July 2, 2025
Autores: Boyuan Sun, Modi Jin, Bowen Yin, Qibin Hou
cs.AI
Resumen
Presentamos Depth Anything at Any Condition (DepthAnything-AC), un modelo fundamental de estimación de profundidad monocular (MDE, por sus siglas en inglés) capaz de manejar diversas condiciones ambientales. Los modelos fundamentales de MDE anteriores logran un rendimiento impresionante en escenas generales, pero no se desempeñan bien en entornos complejos del mundo real que involucran condiciones desafiantes, como variaciones de iluminación, clima adverso y distorsiones inducidas por sensores. Para superar los desafíos de la escasez de datos y la incapacidad de generar pseudoetiquetas de alta calidad a partir de imágenes corruptas, proponemos un paradigma de ajuste fino de regularización de consistencia no supervisado que requiere solo una cantidad relativamente pequeña de datos no etiquetados. Además, proponemos la Restricción de Distancia Espacial para imponer explícitamente que el modelo aprenda relaciones relativas a nivel de parche, lo que resulta en límites semánticos más claros y detalles más precisos. Los resultados experimentales demuestran las capacidades de generalización sin entrenamiento previo (zero-shot) de DepthAnything-AC en diversos benchmarks, incluyendo benchmarks de clima adverso en el mundo real, benchmarks de corrupción sintética y benchmarks generales.
Página del proyecto: https://ghost233lism.github.io/depthanything-AC-page
Código: https://github.com/HVision-NKU/DepthAnythingAC
English
We present Depth Anything at Any Condition (DepthAnything-AC), a foundation
monocular depth estimation (MDE) model capable of handling diverse
environmental conditions. Previous foundation MDE models achieve impressive
performance across general scenes but not perform well in complex open-world
environments that involve challenging conditions, such as illumination
variations, adverse weather, and sensor-induced distortions. To overcome the
challenges of data scarcity and the inability of generating high-quality
pseudo-labels from corrupted images, we propose an unsupervised consistency
regularization finetuning paradigm that requires only a relatively small amount
of unlabeled data. Furthermore, we propose the Spatial Distance Constraint to
explicitly enforce the model to learn patch-level relative relationships,
resulting in clearer semantic boundaries and more accurate details.
Experimental results demonstrate the zero-shot capabilities of DepthAnything-AC
across diverse benchmarks, including real-world adverse weather benchmarks,
synthetic corruption benchmarks, and general benchmarks.
Project Page: https://ghost233lism.github.io/depthanything-AC-page
Code: https://github.com/HVision-NKU/DepthAnythingAC