CommonCanvas: Un Modelo de Difusión Abierto Entrenado con Imágenes de Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images
October 25, 2023
Autores: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI
Resumen
Recopilamos un conjunto de datos de imágenes con licencia Creative Commons (CC), que utilizamos para entrenar una serie de modelos de difusión abiertos que son cualitativamente competitivos con Stable Diffusion 2 (SD2). Esta tarea presenta dos desafíos: (1) las imágenes CC de alta resolución carecen de las descripciones necesarias para entrenar modelos generativos de texto a imagen; (2) las imágenes CC son relativamente escasas. Para abordar estos desafíos, utilizamos una técnica intuitiva de transferencia de aprendizaje para generar un conjunto de descripciones sintéticas de alta calidad emparejadas con imágenes CC curadas. Luego, desarrollamos una receta de entrenamiento eficiente en términos de datos y computación que requiere tan solo el 3% de los datos de LAION-2B necesarios para entrenar los modelos SD2 existentes, pero obtiene una calidad comparable. Estos resultados indican que contamos con un número suficiente de imágenes CC (~70 millones) para entrenar modelos de alta calidad. Nuestra receta de entrenamiento también implementa una variedad de optimizaciones que logran aceleraciones de entrenamiento de ~3X, permitiendo una iteración rápida de los modelos. Aprovechamos esta receta para entrenar varios modelos de texto a imagen de alta calidad, a los que denominamos la familia CommonCanvas. Nuestro modelo más grande alcanza un rendimiento comparable a SD2 en una evaluación humana, a pesar de haber sido entrenado en nuestro conjunto de datos CC, que es significativamente más pequeño que LAION, y utilizando descripciones sintéticas para el entrenamiento. Publicamos nuestros modelos, datos y código en https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use
to train a set of open diffusion models that are qualitatively competitive with
Stable Diffusion 2 (SD2). This task presents two challenges: (1)
high-resolution CC images lack the captions necessary to train text-to-image
generative models; (2) CC images are relatively scarce. In turn, to address
these challenges, we use an intuitive transfer learning technique to produce a
set of high-quality synthetic captions paired with curated CC images. We then
develop a data- and compute-efficient training recipe that requires as little
as 3% of the LAION-2B data needed to train existing SD2 models, but obtains
comparable quality. These results indicate that we have a sufficient number of
CC images (~70 million) for training high-quality models. Our training recipe
also implements a variety of optimizations that achieve ~3X training speed-ups,
enabling rapid model iteration. We leverage this recipe to train several
high-quality text-to-image models, which we dub the CommonCanvas family. Our
largest model achieves comparable performance to SD2 on a human evaluation,
despite being trained on our CC dataset that is significantly smaller than
LAION and using synthetic captions for training. We release our models, data,
and code at
https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md