Ambient Diffusion Omni: Goede modellen trainen met slechte data
Ambient Diffusion Omni: Training Good Models with Bad Data
June 10, 2025
Auteurs: Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis
cs.AI
Samenvatting
We laten zien hoe laagwaardige, synthetische en buiten-de-distributie afbeeldingen kunnen worden gebruikt om de kwaliteit van een diffusiemodel te verbeteren. Normaal gesproken worden diffusiemodellen getraind op gecureerde datasets die voortkomen uit sterk gefilterde datapools van het web en andere bronnen. We tonen aan dat er enorme waarde schuilt in de lagere kwaliteitsafbeeldingen die vaak worden weggegooid. We presenteren Ambient Diffusion Omni, een eenvoudig, principieel raamwerk om diffusiemodellen te trainen die signaal kunnen extraheren uit alle beschikbare afbeeldingen tijdens de training. Ons raamwerk maakt gebruik van twee eigenschappen van natuurlijke afbeeldingen — spectrale machtswetverval en lokaliteit. We valideren ons raamwerk eerst door succesvol diffusiemodellen te trainen met afbeeldingen die synthetisch zijn aangetast door Gaussische vervaging, JPEG-compressie en bewegingsonscherpte. Vervolgens gebruiken we ons raamwerk om state-of-the-art ImageNet FID te bereiken, en we tonen significante verbeteringen in zowel beeldkwaliteit als diversiteit voor tekst-naar-beeld generatieve modellering. De kerninzicht is dat ruis de initiële scheefheid tussen de gewenste hoogwaardige distributie en de gemengde distributie die we daadwerkelijk waarnemen, dempt. We bieden een rigoureuze theoretische rechtvaardiging voor onze aanpak door de afweging te analyseren tussen leren van bevooroordeelde data versus beperkte onbevooroordeelde data over diffusietijden heen.
English
We show how to use low-quality, synthetic, and out-of-distribution images to
improve the quality of a diffusion model. Typically, diffusion models are
trained on curated datasets that emerge from highly filtered data pools from
the Web and other sources. We show that there is immense value in the
lower-quality images that are often discarded. We present Ambient Diffusion
Omni, a simple, principled framework to train diffusion models that can extract
signal from all available images during training. Our framework exploits two
properties of natural images -- spectral power law decay and locality. We first
validate our framework by successfully training diffusion models with images
synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We
then use our framework to achieve state-of-the-art ImageNet FID, and we show
significant improvements in both image quality and diversity for text-to-image
generative modeling. The core insight is that noise dampens the initial skew
between the desired high-quality distribution and the mixed distribution we
actually observe. We provide rigorous theoretical justification for our
approach by analyzing the trade-off between learning from biased data versus
limited unbiased data across diffusion times.