Marigold : Adaptation économique de générateurs d'images basés sur la diffusion pour l'analyse d'images
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
Auteurs: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
Résumé
Le succès de l'apprentissage profond en vision par ordinateur au cours de la dernière décennie a reposé sur de grands ensembles de données étiquetées et des modèles pré-entraînés performants. Dans des contextes où les données sont rares, la qualité de ces modèles pré-entraînés devient cruciale pour un transfert d'apprentissage efficace. La classification d'images et l'apprentissage auto-supervisé ont traditionnellement été les principales méthodes pour le pré-entraînement des réseaux de neurones convolutifs (CNN) et des architectures basées sur les transformateurs. Récemment, l'essor des modèles génératifs texte-image, en particulier ceux utilisant la diffusion de débruitage dans un espace latent, a introduit une nouvelle classe de modèles fondamentaux entraînés sur des ensembles massifs d'images légendées. La capacité de ces modèles à générer des images réalistes de contenus inédits suggère qu'ils possèdent une compréhension approfondie du monde visuel. Dans ce travail, nous présentons Marigold, une famille de modèles génératifs conditionnels et un protocole de fine-tuning qui extrait les connaissances des modèles de diffusion latente pré-entraînés comme Stable Diffusion et les adapte pour des tâches d'analyse d'image dense, incluant l'estimation de profondeur monoculaire, la prédiction des normales de surface et la décomposition intrinsèque. Marigold nécessite des modifications minimales de l'architecture du modèle de diffusion latente pré-entraîné, s'entraîne avec de petits ensembles de données synthétiques sur un seul GPU en quelques jours, et démontre une généralisation zero-shot de pointe. Page du projet : https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.ioSummary
AI-Generated Summary