CommonCanvas: Um Modelo de Difusão Aberto Treinado com Imagens Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images
October 25, 2023
Autores: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI
Resumo
Montamos um conjunto de dados de imagens licenciadas sob Creative Commons (CC), que utilizamos para treinar uma série de modelos de difusão abertos que são qualitativamente competitivos com o Stable Diffusion 2 (SD2). Essa tarefa apresenta dois desafios: (1) imagens CC de alta resolução carecem das legendas necessárias para treinar modelos generativos de texto para imagem; (2) as imagens CC são relativamente escassas. Para enfrentar esses desafios, empregamos uma técnica intuitiva de transferência de aprendizagem para produzir um conjunto de legendas sintéticas de alta qualidade associadas a imagens CC curadas. Em seguida, desenvolvemos uma receita de treinamento eficiente em termos de dados e computação que requer apenas 3% dos dados do LAION-2B necessários para treinar os modelos SD2 existentes, mas obtém qualidade comparável. Esses resultados indicam que temos um número suficiente de imagens CC (~70 milhões) para treinar modelos de alta qualidade. Nossa receita de treinamento também implementa uma variedade de otimizações que alcançam acelerações de treinamento de ~3X, permitindo iteração rápida de modelos. Aproveitamos essa receita para treinar vários modelos de texto para imagem de alta qualidade, que batizamos de família CommonCanvas. Nosso maior modelo alcança desempenho comparável ao SD2 em uma avaliação humana, apesar de ter sido treinado em nosso conjunto de dados CC, que é significativamente menor que o LAION, e de utilizar legendas sintéticas para o treinamento. Disponibilizamos nossos modelos, dados e código em https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use
to train a set of open diffusion models that are qualitatively competitive with
Stable Diffusion 2 (SD2). This task presents two challenges: (1)
high-resolution CC images lack the captions necessary to train text-to-image
generative models; (2) CC images are relatively scarce. In turn, to address
these challenges, we use an intuitive transfer learning technique to produce a
set of high-quality synthetic captions paired with curated CC images. We then
develop a data- and compute-efficient training recipe that requires as little
as 3% of the LAION-2B data needed to train existing SD2 models, but obtains
comparable quality. These results indicate that we have a sufficient number of
CC images (~70 million) for training high-quality models. Our training recipe
also implements a variety of optimizations that achieve ~3X training speed-ups,
enabling rapid model iteration. We leverage this recipe to train several
high-quality text-to-image models, which we dub the CommonCanvas family. Our
largest model achieves comparable performance to SD2 on a human evaluation,
despite being trained on our CC dataset that is significantly smaller than
LAION and using synthetic captions for training. We release our models, data,
and code at
https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md