ChatPaper.aiChatPaper

CommonCanvas: Un Modelo de Difusión Abierto Entrenado con Imágenes de Creative Commons

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

October 25, 2023
Autores: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI

Resumen

Recopilamos un conjunto de datos de imágenes con licencia Creative Commons (CC), que utilizamos para entrenar una serie de modelos de difusión abiertos que son cualitativamente competitivos con Stable Diffusion 2 (SD2). Esta tarea presenta dos desafíos: (1) las imágenes CC de alta resolución carecen de las descripciones necesarias para entrenar modelos generativos de texto a imagen; (2) las imágenes CC son relativamente escasas. Para abordar estos desafíos, utilizamos una técnica intuitiva de transferencia de aprendizaje para generar un conjunto de descripciones sintéticas de alta calidad emparejadas con imágenes CC curadas. Luego, desarrollamos una receta de entrenamiento eficiente en términos de datos y computación que requiere tan solo el 3% de los datos de LAION-2B necesarios para entrenar los modelos SD2 existentes, pero obtiene una calidad comparable. Estos resultados indican que contamos con un número suficiente de imágenes CC (~70 millones) para entrenar modelos de alta calidad. Nuestra receta de entrenamiento también implementa una variedad de optimizaciones que logran aceleraciones de entrenamiento de ~3X, permitiendo una iteración rápida de los modelos. Aprovechamos esta receta para entrenar varios modelos de texto a imagen de alta calidad, a los que denominamos la familia CommonCanvas. Nuestro modelo más grande alcanza un rendimiento comparable a SD2 en una evaluación humana, a pesar de haber sido entrenado en nuestro conjunto de datos CC, que es significativamente más pequeño que LAION, y utilizando descripciones sintéticas para el entrenamiento. Publicamos nuestros modelos, datos y código en https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
PDF361December 15, 2024