Toffee: 主題駆動型テキストから画像生成のための効率的な百万規模データセット構築
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
著者: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
要旨
主題駆動型のテキストから画像生成において、最近の研究では、多数の画像ペアを含む合成データセットでモデルを訓練することで優れた性能を達成しています。これらのデータセットで訓練された生成モデルは、任意のテスト画像から特定の主題に沿った画像をゼロショット方式で生成することができます。それらは、テスト画像に対する追加のファインチューニングを必要とする手法よりも優れた性能を発揮します。しかし、そのようなデータセットを作成するコストは、ほとんどの研究者にとって非常に高額です。単一の訓練ペアを生成するために、現在の手法では、事前訓練されたテキストから画像モデルを主題画像でファインチューニングして細部を捉え、その後、創造的なテキストプロンプトに基づいて同じ主題の画像を作成します。その結果、数百万の主題を含む大規模なデータセットを構築するには、数十万GPU時間が必要となる場合があります。この問題に対処するために、私たちはToffeeを提案します。これは、主題駆動型の編集と生成のためのデータセットを効率的に構築する方法です。具体的には、私たちのデータセット構築では、主題レベルのファインチューニングを一切必要としません。2つの生成モデルを事前訓練した後、無限の数の高品質なサンプルを生成することができます。私たちは、主題駆動型の画像編集と生成のための最初の大規模データセットを構築しました。このデータセットには、500万の画像ペア、テキストプロンプト、およびマスクが含まれています。私たちのデータセットは、以前の最大のデータセットの5倍の規模でありながら、コストは数万GPU時間低くなっています。提案されたデータセットをテストするために、私たちはまた、主題駆動型の画像編集と生成の両方が可能なモデルを提案します。提案されたデータセットでモデルを訓練するだけで、競争力のある結果が得られ、提案されたデータセット構築フレームワークの有効性を示しています。
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.Summary
AI-Generated Summary