ChatPaper.aiChatPaper

CommonCanvas: クリエイティブ・コモンズ画像でトレーニングされたオープンな拡散モデル

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

October 25, 2023
著者: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI

要旨

クリエイティブ・コモンズ(CC)ライセンスの画像データセットを構築し、それを用いてStable Diffusion 2(SD2)と質的に競合するオープンな拡散モデル群をトレーニングしました。この取り組みでは2つの課題がありました:(1) 高解像度のCC画像には、テキストから画像を生成するモデルをトレーニングするために必要なキャプションが欠けていること、(2) CC画像が比較的少ないことです。これらの課題に対処するため、直感的な転移学習技術を用いて、厳選されたCC画像とペアになる高品質な合成キャプションを生成しました。さらに、既存のSD2モデルのトレーニングに必要なLAION-2Bデータのわずか3%で同等の品質を達成する、データ効率と計算効率に優れたトレーニングレシピを開発しました。これらの結果は、高品質なモデルをトレーニングするために十分な数のCC画像(約7000万枚)があることを示しています。また、このトレーニングレシピでは、トレーニング速度を約3倍向上させるさまざまな最適化を実装し、迅速なモデル反復を可能にしました。このレシピを活用して、CommonCanvasファミリーと名付けた複数の高品質なテキストから画像を生成するモデルをトレーニングしました。最大のモデルは、LAIONよりも大幅に小規模なCCデータセットでトレーニングされ、合成キャプションを使用しているにもかかわらず、人間による評価においてSD2と同等の性能を達成しました。モデル、データ、コードは以下で公開しています: https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
PDF361December 15, 2024