Marigold: Adaptação Acessível de Geradores de Imagens Baseados em Difusão para Análise de Imagens
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
Autores: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
Resumo
O sucesso do aprendizado profundo em visão computacional na última década dependeu de grandes conjuntos de dados rotulados e modelos pré-treinados robustos. Em cenários com escassez de dados, a qualidade desses modelos pré-treinados torna-se crucial para uma transferência de aprendizado eficaz. A classificação de imagens e o aprendizado auto-supervisionado têm sido tradicionalmente os principais métodos para pré-treinar CNNs e arquiteturas baseadas em transformadores. Recentemente, o surgimento de modelos generativos de texto para imagem, particularmente aqueles que utilizam difusão de ruído em um espaço latente, introduziu uma nova classe de modelos fundamentais treinados em conjuntos massivos de imagens legendadas. A capacidade desses modelos de gerar imagens realistas de conteúdo nunca visto sugere que eles possuem um profundo entendimento do mundo visual. Neste trabalho, apresentamos Marigold, uma família de modelos generativos condicionais e um protocolo de ajuste fino que extrai o conhecimento de modelos de difusão latente pré-treinados, como o Stable Diffusion, e os adapta para tarefas de análise densa de imagens, incluindo estimativa de profundidade monocular, previsão de normais de superfície e decomposição intrínseca. O Marigold requer modificações mínimas na arquitetura do modelo de difusão latente pré-treinado, treina com pequenos conjuntos de dados sintéticos em uma única GPU ao longo de alguns dias e demonstra generalização zero-shot de última geração. Página do projeto: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.io