ChatPaper.aiChatPaper

Toffee: 主題駆動型テキストから画像生成のための効率的な百万規模データセット構築

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

June 13, 2024
著者: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI

要旨

主題駆動型のテキストから画像生成において、最近の研究では、多数の画像ペアを含む合成データセットでモデルを訓練することで優れた性能を達成しています。これらのデータセットで訓練された生成モデルは、任意のテスト画像から特定の主題に沿った画像をゼロショット方式で生成することができます。それらは、テスト画像に対する追加のファインチューニングを必要とする手法よりも優れた性能を発揮します。しかし、そのようなデータセットを作成するコストは、ほとんどの研究者にとって非常に高額です。単一の訓練ペアを生成するために、現在の手法では、事前訓練されたテキストから画像モデルを主題画像でファインチューニングして細部を捉え、その後、創造的なテキストプロンプトに基づいて同じ主題の画像を作成します。その結果、数百万の主題を含む大規模なデータセットを構築するには、数十万GPU時間が必要となる場合があります。この問題に対処するために、私たちはToffeeを提案します。これは、主題駆動型の編集と生成のためのデータセットを効率的に構築する方法です。具体的には、私たちのデータセット構築では、主題レベルのファインチューニングを一切必要としません。2つの生成モデルを事前訓練した後、無限の数の高品質なサンプルを生成することができます。私たちは、主題駆動型の画像編集と生成のための最初の大規模データセットを構築しました。このデータセットには、500万の画像ペア、テキストプロンプト、およびマスクが含まれています。私たちのデータセットは、以前の最大のデータセットの5倍の規模でありながら、コストは数万GPU時間低くなっています。提案されたデータセットをテストするために、私たちはまた、主題駆動型の画像編集と生成の両方が可能なモデルを提案します。提案されたデータセットでモデルを訓練するだけで、競争力のある結果が得られ、提案されたデータセット構築フレームワークの有効性を示しています。
English
In subject-driven text-to-image generation, recent works have achieved superior performance by training the model on synthetic datasets containing numerous image pairs. Trained on these datasets, generative models can produce text-aligned images for specific subject from arbitrary testing image in a zero-shot manner. They even outperform methods which require additional fine-tuning on testing images. However, the cost of creating such datasets is prohibitive for most researchers. To generate a single training pair, current methods fine-tune a pre-trained text-to-image model on the subject image to capture fine-grained details, then use the fine-tuned model to create images for the same subject based on creative text prompts. Consequently, constructing a large-scale dataset with millions of subjects can require hundreds of thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient method to construct datasets for subject-driven editing and generation. Specifically, our dataset construction does not need any subject-level fine-tuning. After pre-training two generative models, we are able to generate infinite number of high-quality samples. We construct the first large-scale dataset for subject-driven image editing and generation, which contains 5 million image pairs, text prompts, and masks. Our dataset is 5 times the size of previous largest dataset, yet our cost is tens of thousands of GPU hours lower. To test the proposed dataset, we also propose a model which is capable of both subject-driven image editing and generation. By simply training the model on our proposed dataset, it obtains competitive results, illustrating the effectiveness of the proposed dataset construction framework.

Summary

AI-Generated Summary

PDF52December 6, 2024