ChatPaper.aiChatPaper

Depth Anything: Die Kraft groß angelegter ungelabelter Daten freisetzen

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

January 19, 2024
Autoren: Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
cs.AI

Zusammenfassung

Diese Arbeit präsentiert Depth Anything, eine hochpraktische Lösung für robuste monokulare Tiefenschätzung. Ohne neuartige technische Module zu verfolgen, streben wir an, ein einfaches, aber leistungsstarkes Basismodell zu entwickeln, das mit beliebigen Bildern unter allen Umständen umgehen kann. Zu diesem Zweck skalieren wir den Datensatz durch die Entwicklung einer Datenengine, die groß angelegte unmarkierte Daten (~62M) sammelt und automatisch annotiert, was die Datenabdeckung erheblich erweitert und somit den Generalisierungsfehler reduzieren kann. Wir untersuchen zwei einfache, aber effektive Strategien, die eine Datenhochskalierung vielversprechend machen. Erstens wird ein anspruchsvolleres Optimierungsziel durch den Einsatz von Datenaugmentierungswerkzeugen geschaffen. Dies zwingt das Modell, aktiv zusätzliches visuelles Wissen zu suchen und robuste Repräsentationen zu erwerben. Zweitens wird eine zusätzliche Überwachung entwickelt, um das Modell dazu zu bringen, reiche semantische Prioritäten von vortrainierten Encodern zu übernehmen. Wir bewerten seine Zero-Shot-Fähigkeiten umfassend, einschließlich sechs öffentlicher Datensätze und zufällig aufgenommener Fotos. Es zeigt eine beeindruckende Generalisierungsfähigkeit. Darüber hinaus werden durch Feinabstimmung mit metrischen Tiefeninformationen von NYUv2 und KITTI neue SOTAs erreicht. Unser besseres Tiefenmodell führt auch zu einem besseren tiefenabhängigen ControlNet. Unsere Modelle sind unter https://github.com/LiheYoung/Depth-Anything veröffentlicht.
English
This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
PDF622December 15, 2024