Marigold: Экономичная адаптация генераторов изображений на основе диффузии для анализа изображений
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
May 14, 2025
Авторы: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI
Аннотация
Успех глубокого обучения в компьютерном зрении за последнее десятилетие во многом зависел от больших размеченных наборов данных и мощных предобученных моделей. В условиях ограниченного количества данных качество этих предобученных моделей становится критически важным для эффективного трансферного обучения. Традиционно основными методами предобучения сверточных нейронных сетей (CNN) и трансформерных архитектур были классификация изображений и обучение с самоконтролем. В последнее время появление генеративных моделей, преобразующих текст в изображение, особенно тех, которые используют денойзинг-диффузию в латентном пространстве, привело к созданию нового класса фундаментальных моделей, обученных на огромных наборах данных с подписанными изображениями. Способность этих моделей генерировать реалистичные изображения неизвестного содержания свидетельствует о глубоком понимании ими визуального мира. В данной работе мы представляем Marigold — семейство условных генеративных моделей и протокол тонкой настройки, который извлекает знания из предобученных латентных диффузионных моделей, таких как Stable Diffusion, и адаптирует их для задач плотного анализа изображений, включая оценку глубины по одному изображению, предсказание нормалей поверхности и декомпозицию внутренних свойств. Marigold требует минимальных изменений архитектуры предобученной латентной диффузионной модели, обучается на небольших синтетических наборах данных на одном GPU в течение нескольких дней и демонстрирует передовую обобщающую способность в условиях zero-shot. Страница проекта: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has
hinged on large labeled datasets and strong pretrained models. In data-scarce
settings, the quality of these pretrained models becomes crucial for effective
transfer learning. Image classification and self-supervised learning have
traditionally been the primary methods for pretraining CNNs and
transformer-based architectures. Recently, the rise of text-to-image generative
models, particularly those using denoising diffusion in a latent space, has
introduced a new class of foundational models trained on massive, captioned
image datasets. These models' ability to generate realistic images of unseen
content suggests they possess a deep understanding of the visual world. In this
work, we present Marigold, a family of conditional generative models and a
fine-tuning protocol that extracts the knowledge from pretrained latent
diffusion models like Stable Diffusion and adapts them for dense image analysis
tasks, including monocular depth estimation, surface normals prediction, and
intrinsic decomposition. Marigold requires minimal modification of the
pre-trained latent diffusion model's architecture, trains with small synthetic
datasets on a single GPU over a few days, and demonstrates state-of-the-art
zero-shot generalization. Project page:
https://marigoldcomputervision.github.ioSummary
AI-Generated Summary