CommonCanvas: Un Modello di Diffusione Aperto Addestrato con Immagini Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images
October 25, 2023
Autori: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI
Abstract
Assembliamo un dataset di immagini con licenza Creative Commons (CC), che utilizziamo per addestrare una serie di modelli di diffusione open source qualitativamente competitivi con Stable Diffusion 2 (SD2). Questo compito presenta due sfide principali: (1) le immagini CC ad alta risoluzione non dispongono delle didascalie necessarie per addestrare modelli generativi testo-immagine; (2) le immagini CC sono relativamente scarse. Per affrontare queste sfide, utilizziamo una tecnica intuitiva di transfer learning per produrre un insieme di didascalie sintetiche di alta qualità abbinate a immagini CC selezionate. Successivamente, sviluppiamo una procedura di addestramento efficiente in termini di dati e risorse computazionali, che richiede solo il 3% dei dati LAION-2B necessari per addestrare i modelli SD2 esistenti, ma ottiene una qualità comparabile. Questi risultati indicano che disponiamo di un numero sufficiente di immagini CC (~70 milioni) per addestrare modelli di alta qualità. La nostra procedura di addestramento implementa inoltre una serie di ottimizzazioni che consentono un'accelerazione dell'addestramento di circa 3 volte, permettendo un'iterazione rapida dei modelli. Sfruttiamo questa procedura per addestrare diversi modelli testo-immagine di alta qualità, che chiamiamo famiglia CommonCanvas. Il nostro modello più grande raggiunge prestazioni comparabili a SD2 in una valutazione umana, nonostante sia stato addestrato sul nostro dataset CC, significativamente più piccolo di LAION, e utilizzando didascalie sintetiche per l'addestramento. Rilasciamo i nostri modelli, dati e codice all'indirizzo https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use
to train a set of open diffusion models that are qualitatively competitive with
Stable Diffusion 2 (SD2). This task presents two challenges: (1)
high-resolution CC images lack the captions necessary to train text-to-image
generative models; (2) CC images are relatively scarce. In turn, to address
these challenges, we use an intuitive transfer learning technique to produce a
set of high-quality synthetic captions paired with curated CC images. We then
develop a data- and compute-efficient training recipe that requires as little
as 3% of the LAION-2B data needed to train existing SD2 models, but obtains
comparable quality. These results indicate that we have a sufficient number of
CC images (~70 million) for training high-quality models. Our training recipe
also implements a variety of optimizations that achieve ~3X training speed-ups,
enabling rapid model iteration. We leverage this recipe to train several
high-quality text-to-image models, which we dub the CommonCanvas family. Our
largest model achieves comparable performance to SD2 on a human evaluation,
despite being trained on our CC dataset that is significantly smaller than
LAION and using synthetic captions for training. We release our models, data,
and code at
https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md