ChatPaper.aiChatPaper

CommonCanvas: 크리에이티브 커먼즈 이미지로 학습된 오픈 디퓨전 모델

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

October 25, 2023
저자: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
cs.AI

초록

우리는 크리에이티브 커먼즈 라이선스(CC) 이미지 데이터셋을 구축하여, Stable Diffusion 2(SD2)와 질적으로 경쟁력 있는 오픈 디퓨전 모델들을 학습시켰습니다. 이 작업은 두 가지 주요 과제를 제시합니다: (1) 고해상도 CC 이미지는 텍스트-이미지 생성 모델을 학습시키기 위해 필요한 캡션이 부족하며, (2) CC 이미지 자체가 상대적으로 희소합니다. 이러한 과제를 해결하기 위해, 우리는 직관적인 전이 학습 기법을 사용하여 선별된 CC 이미지와 짝을 이루는 고품질의 합성 캡션을 생성했습니다. 그런 다음, 기존 SD2 모델을 학습시키는 데 필요한 LAION-2B 데이터의 3%만으로도 동등한 품질을 얻을 수 있는 데이터 및 컴퓨팅 효율적인 학습 레시피를 개발했습니다. 이러한 결과는 우리가 고품질 모델을 학습시키기에 충분한 수의 CC 이미지(약 7천만 장)를 보유하고 있음을 시사합니다. 또한, 우리의 학습 레시피는 약 3배의 학습 속도 향상을 달성하는 다양한 최적화를 구현하여 빠른 모델 반복을 가능하게 합니다. 우리는 이 레시피를 활용하여 여러 고품질 텍스트-이미지 모델을 학습시켰으며, 이를 CommonCanvas 패밀리라고 명명했습니다. 우리의 가장 큰 모델은 LAION보다 상당히 작은 CC 데이터셋과 합성 캡션을 사용하여 학습되었음에도 불구하고, 인간 평가에서 SD2와 비슷한 성능을 달성했습니다. 우리는 모델, 데이터, 코드를 https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md 에 공개했습니다.
English
We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
PDF361December 15, 2024