ChatPaper.aiChatPaper

Profondità in Qualsiasi Condizione

Depth Anything at Any Condition

July 2, 2025
Autori: Boyuan Sun, Modi Jin, Bowen Yin, Qibin Hou
cs.AI

Abstract

Presentiamo Depth Anything at Any Condition (DepthAnything-AC), un modello di base per la stima della profondità monoculare (MDE) in grado di gestire diverse condizioni ambientali. I precedenti modelli di base MDE raggiungono prestazioni impressionanti in scenari generali, ma non si comportano bene in ambienti complessi del mondo reale che presentano condizioni difficili, come variazioni di illuminazione, condizioni meteorologiche avverse e distorsioni indotte dai sensori. Per superare le sfide della scarsità di dati e dell'incapacità di generare pseudo-etichette di alta qualità da immagini corrotte, proponiamo un paradigma di fine-tuning di regolarizzazione della consistenza non supervisionata che richiede solo una quantità relativamente piccola di dati non etichettati. Inoltre, proponiamo il Vincolo di Distanza Spaziale per imporre esplicitamente al modello di apprendere le relazioni relative a livello di patch, ottenendo confini semantici più chiari e dettagli più accurati. I risultati sperimentali dimostrano le capacità zero-shot di DepthAnything-AC su diversi benchmark, inclusi benchmark di condizioni meteorologiche avverse del mondo reale, benchmark di corruzione sintetica e benchmark generali. Pagina del progetto: https://ghost233lism.github.io/depthanything-AC-page Codice: https://github.com/HVision-NKU/DepthAnythingAC
English
We present Depth Anything at Any Condition (DepthAnything-AC), a foundation monocular depth estimation (MDE) model capable of handling diverse environmental conditions. Previous foundation MDE models achieve impressive performance across general scenes but not perform well in complex open-world environments that involve challenging conditions, such as illumination variations, adverse weather, and sensor-induced distortions. To overcome the challenges of data scarcity and the inability of generating high-quality pseudo-labels from corrupted images, we propose an unsupervised consistency regularization finetuning paradigm that requires only a relatively small amount of unlabeled data. Furthermore, we propose the Spatial Distance Constraint to explicitly enforce the model to learn patch-level relative relationships, resulting in clearer semantic boundaries and more accurate details. Experimental results demonstrate the zero-shot capabilities of DepthAnything-AC across diverse benchmarks, including real-world adverse weather benchmarks, synthetic corruption benchmarks, and general benchmarks. Project Page: https://ghost233lism.github.io/depthanything-AC-page Code: https://github.com/HVision-NKU/DepthAnythingAC
PDF431July 3, 2025