CommonCanvas: Ein offenes Diffusionsmodell, trainiert mit Creative-Commons-Bildern
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images
October 25, 2023
Autoren: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI
Zusammenfassung
Wir erstellen einen Datensatz von Creative-Commons-lizenzierten (CC) Bildern, den wir verwenden, um eine Reihe von offenen Diffusionsmodellen zu trainieren, die qualitativ mit Stable Diffusion 2 (SD2) konkurrieren können. Diese Aufgabe stellt zwei Herausforderungen dar: (1) Hochauflösende CC-Bilder verfügen nicht über die Beschriftungen, die für das Training von Text-zu-Bild-Generierungsmodellen erforderlich sind; (2) CC-Bilder sind relativ knapp. Um diese Herausforderungen zu bewältigen, verwenden wir eine intuitive Transfer-Learning-Technik, um eine Reihe von hochwertigen synthetischen Beschriftungen zu erstellen, die mit kuratierten CC-Bildern gepaart sind. Anschließend entwickeln wir ein daten- und recheneffizientes Trainingsverfahren, das nur etwa 3 % der für das Training bestehender SD2-Modelle benötigten LAION-2B-Daten erfordert, aber eine vergleichbare Qualität erzielt. Diese Ergebnisse deuten darauf hin, dass wir eine ausreichende Anzahl von CC-Bildern (~70 Millionen) für das Training hochwertiger Modelle haben. Unser Trainingsverfahren implementiert auch eine Vielzahl von Optimierungen, die eine ~3-fache Beschleunigung des Trainings ermöglichen und somit eine schnelle Modelliteration unterstützen. Wir nutzen dieses Verfahren, um mehrere hochwertige Text-zu-Bild-Modelle zu trainieren, die wir als CommonCanvas-Familie bezeichnen. Unser größtes Modell erreicht eine vergleichbare Leistung wie SD2 in einer menschlichen Bewertung, obwohl es auf unserem CC-Datensatz trainiert wurde, der deutlich kleiner als LAION ist, und synthetische Beschriftungen für das Training verwendet. Wir veröffentlichen unsere Modelle, Daten und Code unter https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use
to train a set of open diffusion models that are qualitatively competitive with
Stable Diffusion 2 (SD2). This task presents two challenges: (1)
high-resolution CC images lack the captions necessary to train text-to-image
generative models; (2) CC images are relatively scarce. In turn, to address
these challenges, we use an intuitive transfer learning technique to produce a
set of high-quality synthetic captions paired with curated CC images. We then
develop a data- and compute-efficient training recipe that requires as little
as 3% of the LAION-2B data needed to train existing SD2 models, but obtains
comparable quality. These results indicate that we have a sufficient number of
CC images (~70 million) for training high-quality models. Our training recipe
also implements a variety of optimizations that achieve ~3X training speed-ups,
enabling rapid model iteration. We leverage this recipe to train several
high-quality text-to-image models, which we dub the CommonCanvas family. Our
largest model achieves comparable performance to SD2 on a human evaluation,
despite being trained on our CC dataset that is significantly smaller than
LAION and using synthetic captions for training. We release our models, data,
and code at
https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md