Caléndula: Adaptación Económica de Generadores de Imágenes Basados en Difusión para Análisis de Imágenes
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
Autores: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
Resumen
El éxito del aprendizaje profundo en visión por computadora durante la última década ha dependido de grandes conjuntos de datos etiquetados y modelos preentrenados robustos. En entornos con escasez de datos, la calidad de estos modelos preentrenados se vuelve crucial para un aprendizaje por transferencia efectivo. La clasificación de imágenes y el aprendizaje autosupervisado han sido tradicionalmente los métodos principales para el preentrenamiento de redes neuronales convolucionales (CNN) y arquitecturas basadas en transformadores. Recientemente, el auge de los modelos generativos de texto a imagen, particularmente aquellos que utilizan difusión de denoising en un espacio latente, ha introducido una nueva clase de modelos fundamentales entrenados en conjuntos masivos de imágenes con descripciones. La capacidad de estos modelos para generar imágenes realistas de contenido no visto sugiere que poseen un profundo entendimiento del mundo visual. En este trabajo, presentamos Marigold, una familia de modelos generativos condicionales y un protocolo de ajuste fino que extrae el conocimiento de modelos preentrenados de difusión latente como Stable Diffusion y los adapta para tareas de análisis denso de imágenes, incluyendo la estimación de profundidad monocular, la predicción de normales de superficie y la descomposición intrínseca. Marigold requiere modificaciones mínimas en la arquitectura del modelo de difusión latente preentrenado, se entrena con pequeños conjuntos de datos sintéticos en una sola GPU durante unos pocos días y demuestra una generalización de última generación en escenarios de cero disparos. Página del proyecto: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.io