Ambient Diffusion Omni : Entraîner des modèles performants avec des données médiocres
Ambient Diffusion Omni: Training Good Models with Bad Data
June 10, 2025
Auteurs: Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis
cs.AI
Résumé
Nous montrons comment utiliser des images de faible qualité, synthétiques et hors distribution pour améliorer la qualité d'un modèle de diffusion. Typiquement, les modèles de diffusion sont entraînés sur des ensembles de données soigneusement sélectionnés provenant de pools de données hautement filtrés provenant du Web et d'autres sources. Nous démontrons qu'il existe une immense valeur dans les images de moindre qualité qui sont souvent écartées. Nous présentons Ambient Diffusion Omni, un cadre simple et rigoureux pour entraîner des modèles de diffusion capables d'extraire le signal de toutes les images disponibles pendant l'entraînement. Notre cadre exploite deux propriétés des images naturelles — la décroissance de la loi de puissance spectrale et la localité. Nous validons d'abord notre cadre en entraînant avec succès des modèles de diffusion avec des images synthétiquement corrompues par un flou gaussien, une compression JPEG et un flou de mouvement. Nous utilisons ensuite notre cadre pour atteindre un état de l'art en termes de FID sur ImageNet, et nous montrons des améliorations significatives à la fois en qualité d'image et en diversité pour la modélisation générative texte-à-image. L'idée centrale est que le bruit atténue l'asymétrie initiale entre la distribution de haute qualité souhaitée et la distribution mixte que nous observons réellement. Nous fournissons une justification théorique rigoureuse de notre approche en analysant le compromis entre l'apprentissage à partir de données biaisées et des données non biaisées limitées à travers les temps de diffusion.
English
We show how to use low-quality, synthetic, and out-of-distribution images to
improve the quality of a diffusion model. Typically, diffusion models are
trained on curated datasets that emerge from highly filtered data pools from
the Web and other sources. We show that there is immense value in the
lower-quality images that are often discarded. We present Ambient Diffusion
Omni, a simple, principled framework to train diffusion models that can extract
signal from all available images during training. Our framework exploits two
properties of natural images -- spectral power law decay and locality. We first
validate our framework by successfully training diffusion models with images
synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We
then use our framework to achieve state-of-the-art ImageNet FID, and we show
significant improvements in both image quality and diversity for text-to-image
generative modeling. The core insight is that noise dampens the initial skew
between the desired high-quality distribution and the mixed distribution we
actually observe. We provide rigorous theoretical justification for our
approach by analyzing the trade-off between learning from biased data versus
limited unbiased data across diffusion times.