Marigold:画像分析のための拡散ベース画像生成器の低コスト適応
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
著者: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
要旨
過去10年間におけるコンピュータビジョン分野での深層学習の成功は、大規模なラベル付きデータセットと強力な事前学習モデルに依存してきました。データが限られた環境では、これらの事前学習モデルの品質が効果的な転移学習の鍵となります。従来、畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのアーキテクチャの事前学習には、画像分類や自己教師あり学習が主に用いられてきました。最近では、特に潜在空間でのノイズ除去拡散を用いたテキストから画像を生成するモデルの台頭により、大規模なキャプション付き画像データセットで訓練された新しいクラスの基盤モデルが登場しています。これらのモデルが未見のコンテンツの現実的な画像を生成する能力は、視覚世界に対する深い理解を持っていることを示唆しています。本研究では、Stable Diffusionのような事前学習済みの潜在拡散モデルから知識を抽出し、単眼深度推定、表面法線予測、固有分解などの密な画像解析タスクに適応させる条件付き生成モデルファミリー「Marigold」とその微調整プロトコルを提案します。Marigoldは、事前学習済みの潜在拡散モデルのアーキテクチャを最小限に変更し、単一のGPUで数日間の小規模な合成データセットによる訓練を行い、最先端のゼロショット汎化性能を実証します。プロジェクトページ: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.io