Toffee: Effiziente Erstellung von Datensätzen im Millionenumfang für die subjektgesteuerte Generierung von Text-zu-Bild.
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
Autoren: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
Zusammenfassung
In textgesteuerter Bildgenerierung haben aktuelle Arbeiten durch das Training des Modells auf synthetischen Datensätzen mit zahlreichen Bildpaaren eine überragende Leistung erzielt. Generative Modelle, die auf diesen Datensätzen trainiert sind, können textausgerichtete Bilder für ein spezifisches Thema aus beliebigen Testbildern in einer Zero-Shot-Manier erzeugen. Sie übertreffen sogar Methoden, die zusätzliches Feintuning auf Testbildern erfordern. Allerdings ist der Aufwand für die Erstellung solcher Datensätze für die meisten Forscher unerschwinglich. Um ein einzelnes Trainingspaar zu generieren, feintunen aktuelle Methoden ein vortrainiertes Text-zu-Bild-Modell auf das Thema des Bildes, um fein abgestimmte Details zu erfassen, und verwenden dann das feinabgestimmte Modell, um Bilder für dasselbe Thema basierend auf kreativen Textvorgaben zu erstellen. Folglich kann die Konstruktion eines groß angelegten Datensatzes mit Millionen von Themen Hunderttausende von GPU-Stunden erfordern. Um dieses Problem anzugehen, schlagen wir Toffee vor, eine effiziente Methode zur Erstellung von Datensätzen für themenorientierte Bearbeitung und Generierung. Speziell erfordert unsere Datensatzkonstruktion kein Feintuning auf Themen-Ebene. Nach dem Vortraining von zwei generativen Modellen können wir eine unendliche Anzahl hochwertiger Proben generieren. Wir erstellen den ersten groß angelegten Datensatz für themenorientierte Bildbearbeitung und Generierung, der 5 Millionen Bildpaare, Textvorgaben und Masken enthält. Unser Datensatz ist 5-mal so groß wie der bisher größte Datensatz, jedoch sind unsere Kosten um Zehntausende von GPU-Stunden niedriger. Um den vorgeschlagenen Datensatz zu testen, schlagen wir auch ein Modell vor, das sowohl themenorientierte Bildbearbeitung als auch Generierung ermöglicht. Durch einfaches Training des Modells auf unserem vorgeschlagenen Datensatz erzielt es wettbewerbsfähige Ergebnisse und verdeutlicht die Wirksamkeit des vorgeschlagenen Datensatzkonstruktions-Frameworks.
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.Summary
AI-Generated Summary