Depth Anything: Die Kraft groß angelegter ungelabelter Daten freisetzen
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
January 19, 2024
Autoren: Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
cs.AI
Zusammenfassung
Diese Arbeit präsentiert Depth Anything, eine hochpraktische Lösung für robuste monokulare Tiefenschätzung. Ohne neuartige technische Module zu verfolgen, streben wir an, ein einfaches, aber leistungsstarkes Basismodell zu entwickeln, das mit beliebigen Bildern unter allen Umständen umgehen kann. Zu diesem Zweck skalieren wir den Datensatz durch die Entwicklung einer Datenengine, die groß angelegte unmarkierte Daten (~62M) sammelt und automatisch annotiert, was die Datenabdeckung erheblich erweitert und somit den Generalisierungsfehler reduzieren kann. Wir untersuchen zwei einfache, aber effektive Strategien, die eine Datenhochskalierung vielversprechend machen. Erstens wird ein anspruchsvolleres Optimierungsziel durch den Einsatz von Datenaugmentierungswerkzeugen geschaffen. Dies zwingt das Modell, aktiv zusätzliches visuelles Wissen zu suchen und robuste Repräsentationen zu erwerben. Zweitens wird eine zusätzliche Überwachung entwickelt, um das Modell dazu zu bringen, reiche semantische Prioritäten von vortrainierten Encodern zu übernehmen. Wir bewerten seine Zero-Shot-Fähigkeiten umfassend, einschließlich sechs öffentlicher Datensätze und zufällig aufgenommener Fotos. Es zeigt eine beeindruckende Generalisierungsfähigkeit. Darüber hinaus werden durch Feinabstimmung mit metrischen Tiefeninformationen von NYUv2 und KITTI neue SOTAs erreicht. Unser besseres Tiefenmodell führt auch zu einem besseren tiefenabhängigen ControlNet. Unsere Modelle sind unter https://github.com/LiheYoung/Depth-Anything veröffentlicht.
English
This work presents Depth Anything, a highly practical solution for robust
monocular depth estimation. Without pursuing novel technical modules, we aim to
build a simple yet powerful foundation model dealing with any images under any
circumstances. To this end, we scale up the dataset by designing a data engine
to collect and automatically annotate large-scale unlabeled data (~62M), which
significantly enlarges the data coverage and thus is able to reduce the
generalization error. We investigate two simple yet effective strategies that
make data scaling-up promising. First, a more challenging optimization target
is created by leveraging data augmentation tools. It compels the model to
actively seek extra visual knowledge and acquire robust representations.
Second, an auxiliary supervision is developed to enforce the model to inherit
rich semantic priors from pre-trained encoders. We evaluate its zero-shot
capabilities extensively, including six public datasets and randomly captured
photos. It demonstrates impressive generalization ability. Further, through
fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs
are set. Our better depth model also results in a better depth-conditioned
ControlNet. Our models are released at
https://github.com/LiheYoung/Depth-Anything.