Ambient Diffusion Omni : Entraîner des modèles performants avec des données médiocres

papers.abstract

Nous montrons comment utiliser des images de faible qualité, synthétiques et hors distribution pour améliorer la qualité d'un modèle de diffusion. Typiquement, les modèles de diffusion sont entraînés sur des ensembles de données soigneusement sélectionnés provenant de pools de données hautement filtrés provenant du Web et d'autres sources. Nous démontrons qu'il existe une immense valeur dans les images de moindre qualité qui sont souvent écartées. Nous présentons Ambient Diffusion Omni, un cadre simple et rigoureux pour entraîner des modèles de diffusion capables d'extraire le signal de toutes les images disponibles pendant l'entraînement. Notre cadre exploite deux propriétés des images naturelles — la décroissance de la loi de puissance spectrale et la localité. Nous validons d'abord notre cadre en entraînant avec succès des modèles de diffusion avec des images synthétiquement corrompues par un flou gaussien, une compression JPEG et un flou de mouvement. Nous utilisons ensuite notre cadre pour atteindre un état de l'art en termes de FID sur ImageNet, et nous montrons des améliorations significatives à la fois en qualité d'image et en diversité pour la modélisation générative texte-à-image. L'idée centrale est que le bruit atténue l'asymétrie initiale entre la distribution de haute qualité souhaitée et la distribution mixte que nous observons réellement. Nous fournissons une justification théorique rigoureuse de notre approche en analysant le compromis entre l'apprentissage à partir de données biaisées et des données non biaisées limitées à travers les temps de diffusion.

English

We show how to use low-quality, synthetic, and out-of-distribution images to improve the quality of a diffusion model. Typically, diffusion models are trained on curated datasets that emerge from highly filtered data pools from the Web and other sources. We show that there is immense value in the lower-quality images that are often discarded. We present Ambient Diffusion Omni, a simple, principled framework to train diffusion models that can extract signal from all available images during training. Our framework exploits two properties of natural images -- spectral power law decay and locality. We first validate our framework by successfully training diffusion models with images synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We then use our framework to achieve state-of-the-art ImageNet FID, and we show significant improvements in both image quality and diversity for text-to-image generative modeling. The core insight is that noise dampens the initial skew between the desired high-quality distribution and the mixed distribution we actually observe. We provide rigorous theoretical justification for our approach by analyzing the trade-off between learning from biased data versus limited unbiased data across diffusion times.

Ambient Diffusion Omni : Entraîner des modèles performants avec des données médiocres

Ambient Diffusion Omni: Training Good Models with Bad Data

papers.abstract

Support