ChatPaper.aiChatPaper

Marigold: Adattamento Economico di Generatori di Immagini Basati su Diffusione per l'Analisi delle Immagini

Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14, 2025
Autori: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI

Abstract

Il successo del deep learning nella visione artificiale nell'ultimo decennio è stato determinato da grandi dataset etichettati e modelli pre-addestrati robusti. In contesti con scarsità di dati, la qualità di questi modelli pre-addestrati diventa cruciale per un trasferimento efficace delle conoscenze. La classificazione delle immagini e l'apprendimento auto-supervisionato sono stati tradizionalmente i metodi principali per il pre-addestramento di CNN e architetture basate su transformer. Recentemente, l'ascesa di modelli generativi testo-immagine, in particolare quelli che utilizzano la diffusione del rumore in uno spazio latente, ha introdotto una nuova classe di modelli fondazionali addestrati su enormi dataset di immagini con didascalie. La capacità di questi modelli di generare immagini realistiche di contenuti mai visti suggerisce che possiedano una profonda comprensione del mondo visivo. In questo lavoro, presentiamo Marigold, una famiglia di modelli generativi condizionali e un protocollo di fine-tuning che estrae la conoscenza da modelli pre-addestrati di diffusione latente come Stable Diffusion e li adatta per compiti di analisi densa delle immagini, tra cui la stima della profondità monoculare, la previsione delle normali di superficie e la decomposizione intrinseca. Marigold richiede modifiche minime all'architettura del modello di diffusione latente pre-addestrato, si addestra con piccoli dataset sintetici su una singola GPU in pochi giorni e dimostra una generalizzazione zero-shot all'avanguardia. Pagina del progetto: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models' ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model's architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io
PDF262May 15, 2025