ChatPaper.aiChatPaper

CommonCanvas : Un modèle de diffusion ouvert entraîné avec des images sous licence Creative Commons

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

October 25, 2023
Auteurs: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI

Résumé

Nous constituons un ensemble de données d'images sous licence Creative Commons (CC), que nous utilisons pour entraîner une série de modèles de diffusion ouverts qui sont qualitativement compétitifs avec Stable Diffusion 2 (SD2). Cette tâche présente deux défis majeurs : (1) les images CC haute résolution ne disposent pas des légendes nécessaires pour entraîner des modèles génératifs texte-à-image ; (2) les images CC sont relativement rares. Pour relever ces défis, nous utilisons une technique intuitive de transfert d'apprentissage pour produire un ensemble de légendes synthétiques de haute qualité associées à des images CC soigneusement sélectionnées. Nous développons ensuite une méthode d'entraînement efficace en termes de données et de calcul, nécessitant seulement 3 % des données LAION-2B utilisées pour entraîner les modèles SD2 existants, tout en obtenant une qualité comparable. Ces résultats indiquent que nous disposons d'un nombre suffisant d'images CC (~70 millions) pour entraîner des modèles de haute qualité. Notre méthode d'entraînement intègre également diverses optimisations permettant d'atteindre une accélération de l'entraînement d'environ 3X, facilitant ainsi une itération rapide des modèles. Nous exploitons cette méthode pour entraîner plusieurs modèles texte-à-image de haute qualité, que nous nommons la famille CommonCanvas. Notre plus grand modèle atteint des performances comparables à SD2 lors d'une évaluation humaine, bien qu'il ait été entraîné sur notre ensemble de données CC, qui est nettement plus petit que LAION, et en utilisant des légendes synthétiques pour l'entraînement. Nous mettons à disposition nos modèles, données et code à l'adresse suivante : https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
PDF361December 15, 2024