Profundidad en Cualquier Condición

Resumen

Presentamos Depth Anything at Any Condition (DepthAnything-AC), un modelo fundamental de estimación de profundidad monocular (MDE, por sus siglas en inglés) capaz de manejar diversas condiciones ambientales. Los modelos fundamentales de MDE anteriores logran un rendimiento impresionante en escenas generales, pero no se desempeñan bien en entornos complejos del mundo real que involucran condiciones desafiantes, como variaciones de iluminación, clima adverso y distorsiones inducidas por sensores. Para superar los desafíos de la escasez de datos y la incapacidad de generar pseudoetiquetas de alta calidad a partir de imágenes corruptas, proponemos un paradigma de ajuste fino de regularización de consistencia no supervisado que requiere solo una cantidad relativamente pequeña de datos no etiquetados. Además, proponemos la Restricción de Distancia Espacial para imponer explícitamente que el modelo aprenda relaciones relativas a nivel de parche, lo que resulta en límites semánticos más claros y detalles más precisos. Los resultados experimentales demuestran las capacidades de generalización sin entrenamiento previo (zero-shot) de DepthAnything-AC en diversos benchmarks, incluyendo benchmarks de clima adverso en el mundo real, benchmarks de corrupción sintética y benchmarks generales. Página del proyecto: https://ghost233lism.github.io/depthanything-AC-page Código: https://github.com/HVision-NKU/DepthAnythingAC

English

We present Depth Anything at Any Condition (DepthAnything-AC), a foundation monocular depth estimation (MDE) model capable of handling diverse environmental conditions. Previous foundation MDE models achieve impressive performance across general scenes but not perform well in complex open-world environments that involve challenging conditions, such as illumination variations, adverse weather, and sensor-induced distortions. To overcome the challenges of data scarcity and the inability of generating high-quality pseudo-labels from corrupted images, we propose an unsupervised consistency regularization finetuning paradigm that requires only a relatively small amount of unlabeled data. Furthermore, we propose the Spatial Distance Constraint to explicitly enforce the model to learn patch-level relative relationships, resulting in clearer semantic boundaries and more accurate details. Experimental results demonstrate the zero-shot capabilities of DepthAnything-AC across diverse benchmarks, including real-world adverse weather benchmarks, synthetic corruption benchmarks, and general benchmarks. Project Page: https://ghost233lism.github.io/depthanything-AC-page Code: https://github.com/HVision-NKU/DepthAnythingAC