ChatPaper.aiChatPaper

CommonCanvas: Открытая диффузионная модель, обученная на изображениях с лицензией Creative Commons

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

October 25, 2023
Авторы: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI

Аннотация

Мы собираем набор данных изображений, лицензированных по Creative Commons (CC), которые используем для обучения набора открытых диффузионных моделей, качественно сопоставимых с Stable Diffusion 2 (SD2). Эта задача ставит два вызова: (1) изображения высокого разрешения, лицензированные по CC, не имеют подписей, необходимых для обучения моделей генерации изображений по тексту; (2) изображения CC относительно редки. Для решения этих проблем мы применяем интуитивно понятную технику трансферного обучения, чтобы создать набор высококачественных синтетических подписей, сопоставленных с отобранными изображениями CC. Затем мы разрабатываем рецепт обучения, эффективный по данным и вычислительным ресурсам, который требует всего 3% данных LAION-2B, необходимых для обучения существующих моделей SD2, но обеспечивает сопоставимое качество. Эти результаты указывают на то, что у нас достаточно изображений CC (~70 миллионов) для обучения высококачественных моделей. Наш рецепт обучения также включает различные оптимизации, которые позволяют ускорить обучение примерно в 3 раза, что способствует быстрой итерации моделей. Мы используем этот рецепт для обучения нескольких высококачественных моделей генерации изображений по тексту, которые мы называем семейством CommonCanvas. Наша крупнейшая модель демонстрирует сопоставимую с SD2 производительность в ходе человеческой оценки, несмотря на то, что она обучена на нашем наборе данных CC, который значительно меньше LAION, и использует синтетические подписи для обучения. Мы публикуем наши модели, данные и код по адресу: https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
PDF361December 15, 2024