Marigold : Adaptation économique de générateurs d'images basés sur la diffusion pour l'analyse d'images

Résumé

Le succès de l'apprentissage profond en vision par ordinateur au cours de la dernière décennie a reposé sur de grands ensembles de données étiquetées et des modèles pré-entraînés performants. Dans des contextes où les données sont rares, la qualité de ces modèles pré-entraînés devient cruciale pour un transfert d'apprentissage efficace. La classification d'images et l'apprentissage auto-supervisé ont traditionnellement été les principales méthodes pour le pré-entraînement des réseaux de neurones convolutifs (CNN) et des architectures basées sur les transformateurs. Récemment, l'essor des modèles génératifs texte-image, en particulier ceux utilisant la diffusion de débruitage dans un espace latent, a introduit une nouvelle classe de modèles fondamentaux entraînés sur des ensembles massifs d'images légendées. La capacité de ces modèles à générer des images réalistes de contenus inédits suggère qu'ils possèdent une compréhension approfondie du monde visuel. Dans ce travail, nous présentons Marigold, une famille de modèles génératifs conditionnels et un protocole de fine-tuning qui extrait les connaissances des modèles de diffusion latente pré-entraînés comme Stable Diffusion et les adapte pour des tâches d'analyse d'image dense, incluant l'estimation de profondeur monoculaire, la prédiction des normales de surface et la décomposition intrinsèque. Marigold nécessite des modifications minimales de l'architecture du modèle de diffusion latente pré-entraîné, s'entraîne avec de petits ensembles de données synthétiques sur un seul GPU en quelques jours, et démontre une généralisation zero-shot de pointe. Page du projet : https://marigoldcomputervision.github.io

English

The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models' ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model's architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io

Marigold : Adaptation économique de générateurs d'images basés sur la diffusion pour l'analyse d'images

Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

Résumé

Support