Ambient Diffusion Omni: Обучение качественных моделей на некачественных данных
Ambient Diffusion Omni: Training Good Models with Bad Data
June 10, 2025
Авторы: Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis
cs.AI
Аннотация
Мы демонстрируем, как использовать низкокачественные, синтетические и изображения, выходящие за пределы распределения, для улучшения качества диффузионной модели. Обычно диффузионные модели обучаются на тщательно отобранных наборах данных, которые формируются из высокофильтрованных источников, таких как веб и другие ресурсы. Мы показываем, что в низкокачественных изображениях, которые часто отбрасываются, содержится значительная ценность. Мы представляем Ambient Diffusion Omni — простую и принципиальную структуру для обучения диффузионных моделей, которая позволяет извлекать сигнал из всех доступных изображений в процессе обучения. Наша структура использует два свойства натуральных изображений — степенной закон затухания спектральной мощности и локальность. Сначала мы подтверждаем эффективность нашей структуры, успешно обучая диффузионные модели на изображениях, искусственно искаженных гауссовым размытием, JPEG-сжатием и размытием в движении. Затем мы применяем нашу структуру для достижения наилучших показателей FID на ImageNet и демонстрируем значительное улучшение как качества изображений, так и их разнообразия в задачах генеративного моделирования текста в изображения. Ключевая идея заключается в том, что шум уменьшает начальный перекос между желаемым распределением высокого качества и смешанным распределением, которое мы фактически наблюдаем. Мы предоставляем строгое теоретическое обоснование нашего подхода, анализируя компромисс между обучением на смещенных данных и ограниченными несмещенными данными на различных этапах диффузии.
English
We show how to use low-quality, synthetic, and out-of-distribution images to
improve the quality of a diffusion model. Typically, diffusion models are
trained on curated datasets that emerge from highly filtered data pools from
the Web and other sources. We show that there is immense value in the
lower-quality images that are often discarded. We present Ambient Diffusion
Omni, a simple, principled framework to train diffusion models that can extract
signal from all available images during training. Our framework exploits two
properties of natural images -- spectral power law decay and locality. We first
validate our framework by successfully training diffusion models with images
synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We
then use our framework to achieve state-of-the-art ImageNet FID, and we show
significant improvements in both image quality and diversity for text-to-image
generative modeling. The core insight is that noise dampens the initial skew
between the desired high-quality distribution and the mixed distribution we
actually observe. We provide rigorous theoretical justification for our
approach by analyzing the trade-off between learning from biased data versus
limited unbiased data across diffusion times.