CommonCanvas: Een Open Diffusiemodel Getraind met Creative-Commons Afbeeldingen
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images
October 25, 2023
Auteurs: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI
Samenvatting
We stellen een dataset samen van Creative-Commons-gelicentieerde (CC) afbeeldingen, die we gebruiken om een reeks open diffusion-modellen te trainen die kwalitatief vergelijkbaar zijn met Stable Diffusion 2 (SD2). Deze taak brengt twee uitdagingen met zich mee: (1) hoge-resolutie CC-afbeeldingen missen de bijschriften die nodig zijn om tekst-naar-afbeelding generatieve modellen te trainen; (2) CC-afbeeldingen zijn relatief schaars. Om deze uitdagingen aan te pakken, gebruiken we een intuïtieve transfer learning-techniek om een set hoogwaardige synthetische bijschriften te produceren die gekoppeld zijn aan gecureerde CC-afbeeldingen. Vervolgens ontwikkelen we een data- en rekenkundig efficiënt trainingsrecept dat slechts 3% van de LAION-2B-gegevens nodig heeft die vereist zijn voor het trainen van bestaande SD2-modellen, maar toch vergelijkbare kwaliteit behaalt. Deze resultaten geven aan dat we een voldoende aantal CC-afbeeldingen (~70 miljoen) hebben voor het trainen van hoogwaardige modellen. Ons trainingsrecept implementeert ook een verscheidenheid aan optimalisaties die een ~3X snellere trainingssnelheid bereiken, waardoor snelle modeliteratie mogelijk wordt. We benutten dit recept om verschillende hoogwaardige tekst-naar-afbeelding modellen te trainen, die we de CommonCanvas-familie noemen. Ons grootste model bereikt vergelijkbare prestaties als SD2 in een menselijke evaluatie, ondanks dat het getraind is op onze CC-dataset die aanzienlijk kleiner is dan LAION en synthetische bijschriften gebruikt voor de training. We geven onze modellen, data en code vrij op https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use
to train a set of open diffusion models that are qualitatively competitive with
Stable Diffusion 2 (SD2). This task presents two challenges: (1)
high-resolution CC images lack the captions necessary to train text-to-image
generative models; (2) CC images are relatively scarce. In turn, to address
these challenges, we use an intuitive transfer learning technique to produce a
set of high-quality synthetic captions paired with curated CC images. We then
develop a data- and compute-efficient training recipe that requires as little
as 3% of the LAION-2B data needed to train existing SD2 models, but obtains
comparable quality. These results indicate that we have a sufficient number of
CC images (~70 million) for training high-quality models. Our training recipe
also implements a variety of optimizations that achieve ~3X training speed-ups,
enabling rapid model iteration. We leverage this recipe to train several
high-quality text-to-image models, which we dub the CommonCanvas family. Our
largest model achieves comparable performance to SD2 on a human evaluation,
despite being trained on our CC dataset that is significantly smaller than
LAION and using synthetic captions for training. We release our models, data,
and code at
https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md