ChatPaper.aiChatPaper

Marigold:画像分析のための拡散ベース画像生成器の低コスト適応

Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14, 2025
著者: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI

要旨

過去10年間におけるコンピュータビジョン分野での深層学習の成功は、大規模なラベル付きデータセットと強力な事前学習モデルに依存してきました。データが限られた環境では、これらの事前学習モデルの品質が効果的な転移学習の鍵となります。従来、畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのアーキテクチャの事前学習には、画像分類や自己教師あり学習が主に用いられてきました。最近では、特に潜在空間でのノイズ除去拡散を用いたテキストから画像を生成するモデルの台頭により、大規模なキャプション付き画像データセットで訓練された新しいクラスの基盤モデルが登場しています。これらのモデルが未見のコンテンツの現実的な画像を生成する能力は、視覚世界に対する深い理解を持っていることを示唆しています。本研究では、Stable Diffusionのような事前学習済みの潜在拡散モデルから知識を抽出し、単眼深度推定、表面法線予測、固有分解などの密な画像解析タスクに適応させる条件付き生成モデルファミリー「Marigold」とその微調整プロトコルを提案します。Marigoldは、事前学習済みの潜在拡散モデルのアーキテクチャを最小限に変更し、単一のGPUで数日間の小規模な合成データセットによる訓練を行い、最先端のゼロショット汎化性能を実証します。プロジェクトページ: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models' ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model's architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io
PDF252May 15, 2025