ChatPaper.aiChatPaper

Marigold: 이미지 분석을 위한 확산 기반 이미지 생성기의 경제적 적응

Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14, 2025
저자: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
cs.AI

초록

지난 10년간 컴퓨터 비전 분야에서 딥러닝의 성공은 대규모 레이블 데이터셋과 강력한 사전 학습 모델에 기반해 왔습니다. 데이터가 부족한 환경에서는 이러한 사전 학습 모델의 품질이 효과적인 전이 학습에 있어 결정적인 역할을 합니다. 이미지 분류와 자기 지도 학습은 전통적으로 CNN(합성곱 신경망) 및 트랜스포머 기반 아키텍처를 사전 학습하는 주요 방법으로 사용되어 왔습니다. 최근 텍스트-이미지 생성 모델, 특히 잠재 공간에서 디노이징 확산을 사용하는 모델의 부상은 대규모 캡션 이미지 데이터셋으로 학습된 새로운 종류의 기초 모델을 소개했습니다. 이러한 모델들이 보지 못한 콘텐츠의 현실적인 이미지를 생성할 수 있는 능력은 시각 세계에 대한 깊은 이해를 가지고 있음을 시사합니다. 본 연구에서는 Marigold라는 조건부 생성 모델 패밀리와 사전 학습된 잠재 확산 모델(예: Stable Diffusion)의 지식을 추출하여 단안 깊이 추정, 표면 법선 예측, 내재적 분해와 같은 밀집 이미지 분석 작업에 적응시키는 미세 조정 프로토콜을 제시합니다. Marigold는 사전 학습된 잠재 확산 모델의 아키텍처를 최소한으로 수정하며, 단일 GPU에서 소규모 합성 데이터셋으로 며칠 동안 학습하고, 최첨단 제로샷 일반화 성능을 보여줍니다. 프로젝트 페이지: https://marigoldcomputervision.github.io
English
The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models' ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model's architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io
PDF252May 15, 2025