Depth Anything: Sfruttare il Potenziale dei Dati Non Etichettati su Larga Scala
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
January 19, 2024
Autori: Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
cs.AI
Abstract
Questo lavoro presenta Depth Anything, una soluzione altamente pratica per la stima robusta della profondità monoculare. Senza ricercare moduli tecnici innovativi, miriamo a costruire un modello di base semplice ma potente in grado di gestire qualsiasi immagine in qualsiasi circostanza. A tal fine, ampliamo il dataset progettando un motore di dati per raccogliere e annotare automaticamente grandi quantità di dati non etichettati (~62M), che ampliano significativamente la copertura dei dati e quindi sono in grado di ridurre l'errore di generalizzazione. Investigiamo due strategie semplici ma efficaci che rendono promettente l'ampliamento dei dati. In primo luogo, viene creato un obiettivo di ottimizzazione più impegnativo sfruttando strumenti di aumento dei dati. Ciò costringe il modello a cercare attivamente conoscenze visive aggiuntive e ad acquisire rappresentazioni robuste. In secondo luogo, viene sviluppata una supervisione ausiliaria per imporre al modello di ereditare ricchi priori semantici da encoder pre-addestrati. Valutiamo ampiamente le sue capacità zero-shot, inclusi sei dataset pubblici e foto catturate casualmente. Dimostra un'impressionante capacità di generalizzazione. Inoltre, attraverso il fine-tuning con informazioni sulla profondità metrica da NYUv2 e KITTI, vengono stabiliti nuovi SOTA. Il nostro modello di profondità migliore si traduce anche in un ControlNet condizionato alla profondità migliore. I nostri modelli sono rilasciati su https://github.com/LiheYoung/Depth-Anything.
English
This work presents Depth Anything, a highly practical solution for robust
monocular depth estimation. Without pursuing novel technical modules, we aim to
build a simple yet powerful foundation model dealing with any images under any
circumstances. To this end, we scale up the dataset by designing a data engine
to collect and automatically annotate large-scale unlabeled data (~62M), which
significantly enlarges the data coverage and thus is able to reduce the
generalization error. We investigate two simple yet effective strategies that
make data scaling-up promising. First, a more challenging optimization target
is created by leveraging data augmentation tools. It compels the model to
actively seek extra visual knowledge and acquire robust representations.
Second, an auxiliary supervision is developed to enforce the model to inherit
rich semantic priors from pre-trained encoders. We evaluate its zero-shot
capabilities extensively, including six public datasets and randomly captured
photos. It demonstrates impressive generalization ability. Further, through
fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs
are set. Our better depth model also results in a better depth-conditioned
ControlNet. Our models are released at
https://github.com/LiheYoung/Depth-Anything.