Marigold: Kostengünstige Anpassung diffusionsbasierter Bildgeneratoren für die Bildanalyse
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
Autoren: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
Zusammenfassung
Der Erfolg des Deep Learning in der Computer Vision im letzten Jahrzehnt
hing von großen, annotierten Datensätzen und leistungsstarken vortrainierten
Modellen ab. In datenarmen Umgebungen wird die Qualität dieser vortrainierten
Modelle entscheidend für effektives Transferlernen. Bildklassifizierung und
selbstüberwachtes Lernen waren traditionell die primären Methoden für das
Vortraining von CNNs und transformer-basierten Architekturen. In jüngster Zeit
hat der Aufstieg von Text-zu-Bild-generativen Modellen, insbesondere solchen,
die Denoising-Diffusion in einem latenten Raum verwenden, eine neue Klasse von
Foundation-Modellen eingeführt, die auf riesigen, beschrifteten Bilddatensätzen
trainiert wurden. Die Fähigkeit dieser Modelle, realistische Bilder von
unbekanntem Inhalt zu generieren, deutet darauf hin, dass sie ein tiefes
Verständnis der visuellen Welt besitzen. In dieser Arbeit stellen wir Marigold
vor, eine Familie von bedingten generativen Modellen und ein Feinabstimmungsprotokoll,
das das Wissen aus vortrainierten latenten Diffusionsmodellen wie Stable
Diffusion extrahiert und sie für dichte Bildanalysenaufgaben anpasst, einschließlich
monokularer Tiefenschätzung, Vorhersage von Oberflächennormalen und intrinsischer
Dekomposition. Marigold erfordert minimale Modifikationen an der Architektur des
vortrainierten latenten Diffusionsmodells, trainiert mit kleinen synthetischen
Datensätzen auf einer einzelnen GPU über wenige Tage und demonstriert
state-of-the-art Zero-Shot-Generalisierung. Projektseite:
https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.ioSummary
AI-Generated Summary