Toffee: Efficiënte Constructie van Miljoenen-Schaal Datasets voor Onderwerp-Gestuurde Tekst-naar-Beeld Generatie
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
Auteurs: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
Samenvatting
In onderwerpgestuurde tekst-naar-beeldgeneratie hebben recente werken superieure prestaties bereikt door het model te trainen op synthetische datasets die talrijke beeldparen bevatten. Getraind op deze datasets kunnen generatieve modellen tekst-uitgelijnde beelden produceren voor een specifiek onderwerp vanuit een willekeurige testafbeelding op een zero-shot-manier. Ze overtreffen zelfs methoden die aanvullende fine-tuning op testafbeeldingen vereisen. De kosten voor het creëren van dergelijke datasets zijn echter voor de meeste onderzoekers onoverkomelijk. Om één trainingspaar te genereren, fine-tunen huidige methoden een vooraf getraind tekst-naar-beeldmodel op de onderwerpafbeelding om fijne details vast te leggen, waarna het gefinetunede model wordt gebruikt om afbeeldingen voor hetzelfde onderwerp te creëren op basis van creatieve tekstprompts. Hierdoor kan het opbouwen van een grootschalige dataset met miljoenen onderwerpen honderdduizenden GPU-uren vergen. Om dit probleem aan te pakken, stellen we Toffee voor, een efficiënte methode om datasets te construeren voor onderwerpgestuurde bewerking en generatie. Specifiek vereist onze datasetconstructie geen fine-tuning op onderwerpniveau. Na het vooraf trainen van twee generatieve modellen, kunnen we een oneindig aantal hoogwaardige samples genereren. We construeren de eerste grootschalige dataset voor onderwerpgestuurde beeldbewerking en -generatie, die 5 miljoen beeldparen, tekstprompts en maskers bevat. Onze dataset is 5 keer zo groot als de vorige grootste dataset, terwijl onze kosten tienduizenden GPU-uren lager zijn. Om de voorgestelde dataset te testen, stellen we ook een model voor dat zowel onderwerpgestuurde beeldbewerking als -generatie kan uitvoeren. Door het model simpelweg te trainen op onze voorgestelde dataset, behaalt het competitieve resultaten, wat de effectiviteit van het voorgestelde datasetconstructieframework illustreert.
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.