Depth Anything V2
Depth Anything V2
June 13, 2024
著者: Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
cs.AI
要旨
本論文ではDepth Anything V2を紹介する。派手な技術を追求するのではなく、強力な単眼深度推定モデルを構築するための重要な知見を明らかにすることを目指している。特にV1と比較して、このバージョンでは以下の3つの主要な実践を通じて、より精細でロバストな深度予測を実現している:1) ラベル付き実画像を全て合成画像に置き換える、2) 教師モデルの容量をスケールアップする、3) 大規模な擬似ラベル付き実画像を橋渡しとして学生モデルを指導する。Stable Diffusionに基づいて構築された最新のモデルと比較して、我々のモデルは大幅に効率的(10倍以上高速)で、かつ精度も高い。様々なシナリオをサポートするため、異なるスケールのモデル(25Mから1.3Bパラメータまで)を提供する。それらの強力な汎化能力を活かし、メトリック深度ラベルでファインチューニングを行い、メトリック深度モデルを取得する。我々のモデルに加えて、現在のテストセットの多様性の不足と頻繁なノイズを考慮し、正確なアノテーションと多様なシーンを持つ汎用的な評価ベンチマークを構築し、今後の研究を促進する。
English
This work presents Depth Anything V2. Without pursuing fancy techniques, we
aim to reveal crucial findings to pave the way towards building a powerful
monocular depth estimation model. Notably, compared with V1, this version
produces much finer and more robust depth predictions through three key
practices: 1) replacing all labeled real images with synthetic images, 2)
scaling up the capacity of our teacher model, and 3) teaching student models
via the bridge of large-scale pseudo-labeled real images. Compared with the
latest models built on Stable Diffusion, our models are significantly more
efficient (more than 10x faster) and more accurate. We offer models of
different scales (ranging from 25M to 1.3B params) to support extensive
scenarios. Benefiting from their strong generalization capability, we fine-tune
them with metric depth labels to obtain our metric depth models. In addition to
our models, considering the limited diversity and frequent noise in current
test sets, we construct a versatile evaluation benchmark with precise
annotations and diverse scenes to facilitate future research.Summary
AI-Generated Summary