Marigold: Kosteneffectieve aanpassing van diffusiegebaseerde beeldgeneratoren voor beeldanalyse
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
Auteurs: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
Samenvatting
Het succes van deep learning in computervisie in het afgelopen decennium is
afhankelijk geweest van grote gelabelde datasets en krachtige vooraf getrainde
modellen. In situaties met beperkte data wordt de kwaliteit van deze
vooraf getrainde modellen cruciaal voor effectieve transfer learning.
Beeldclassificatie en zelfsupervised learning zijn traditioneel de primaire
methoden geweest voor het vooraf trainen van CNN's en transformer-gebaseerde
architecturen. Recentelijk heeft de opkomst van tekst-naar-beeld generatieve
modellen, met name die gebruikmaken van denoising diffusion in een latente
ruimte, een nieuwe klasse van foundation models geïntroduceerd die getraind zijn
op enorme, beschreven beelddatasets. Het vermogen van deze modellen om realistische
beelden van ongeziene inhoud te genereren suggereert dat ze een diep begrip hebben
van de visuele wereld. In dit werk presenteren we Marigold, een familie van
conditionele generatieve modellen en een fine-tuning protocol dat de kennis uit
vooraf getrainde latente diffusiemodellen zoals Stable Diffusion haalt en ze
aanpast voor dichte beeldanalysetaken, waaronder monocular depth estimation,
surface normals prediction en intrinsieke decompositie. Marigold vereist minimale
aanpassingen aan de architectuur van het vooraf getrainde latente diffusiemodel,
traint met kleine synthetische datasets op een enkele GPU in enkele dagen, en
demonstreert state-of-the-art zero-shot generalisatie. Projectpagina:
https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.ioSummary
AI-Generated Summary