ChatPaper.aiChatPaper

앰비언트 디퓨전 오므니: 나쁜 데이터로 좋은 모델 훈련하기

Ambient Diffusion Omni: Training Good Models with Bad Data

June 10, 2025
저자: Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis
cs.AI

초록

우리는 저품질, 합성, 그리고 분포 외부 이미지를 활용하여 확산 모델의 품질을 개선하는 방법을 제시한다. 일반적으로 확산 모델은 웹 및 기타 출처에서 고도로 필터링된 데이터 풀에서 나온 정제된 데이터셋으로 훈련된다. 우리는 종종 폐기되는 저품질 이미지에도 상당한 가치가 있음을 보여준다. 우리는 훈련 중 사용 가능한 모든 이미지에서 신호를 추출할 수 있는 확산 모델을 훈련시키기 위한 간단하고 원칙적인 프레임워크인 Ambient Diffusion Omni를 제시한다. 우리의 프레임워크는 자연 이미지의 두 가지 특성, 즉 스펙트럼 파워 법칙 감쇠와 지역성을 활용한다. 먼저, 우리는 가우시안 블러, JPEG 압축, 모션 블러로 인위적으로 손상된 이미지로 확산 모델을 성공적으로 훈련시켜 프레임워크를 검증한다. 그런 다음, 우리의 프레임워크를 사용하여 ImageNet FID에서 최첨단 성능을 달성하고, 텍스트-이미지 생성 모델링에서 이미지 품질과 다양성 모두에서 상당한 개선을 보여준다. 핵심 통찰은 노이즈가 원하는 고품질 분포와 실제로 관찰되는 혼합 분포 사이의 초기 왜곡을 완화한다는 것이다. 우리는 확산 시간에 걸쳐 편향된 데이터로부터 학습하는 것과 제한된 편향되지 않은 데이터로부터 학습하는 것 사이의 균형을 분석함으로써 우리의 접근 방식에 대한 엄밀한 이론적 근거를 제공한다.
English
We show how to use low-quality, synthetic, and out-of-distribution images to improve the quality of a diffusion model. Typically, diffusion models are trained on curated datasets that emerge from highly filtered data pools from the Web and other sources. We show that there is immense value in the lower-quality images that are often discarded. We present Ambient Diffusion Omni, a simple, principled framework to train diffusion models that can extract signal from all available images during training. Our framework exploits two properties of natural images -- spectral power law decay and locality. We first validate our framework by successfully training diffusion models with images synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We then use our framework to achieve state-of-the-art ImageNet FID, and we show significant improvements in both image quality and diversity for text-to-image generative modeling. The core insight is that noise dampens the initial skew between the desired high-quality distribution and the mixed distribution we actually observe. We provide rigorous theoretical justification for our approach by analyzing the trade-off between learning from biased data versus limited unbiased data across diffusion times.
PDF62June 18, 2025