Toffee : Construction efficace de jeux de données à l'échelle du million pour la génération d'images à partir de texte pilotée par sujet
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
papers.authors: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
papers.abstract
Dans le domaine de la génération d'images à partir de texte centrée sur des sujets spécifiques, les travaux récents ont atteint des performances supérieures en entraînant les modèles sur des ensembles de données synthétiques contenant de nombreuses paires d'images. Formés sur ces ensembles de données, les modèles génératifs peuvent produire des images alignées avec le texte pour un sujet spécifique à partir d'une image de test arbitraire, de manière zero-shot. Ils surpassent même les méthodes qui nécessitent un ajustement supplémentaire sur les images de test. Cependant, le coût de création de tels ensembles de données est prohibitif pour la plupart des chercheurs. Pour générer une seule paire d'entraînement, les méthodes actuelles ajustent un modèle pré-entraîné de génération d'images à partir de texte sur l'image du sujet pour capturer des détails fins, puis utilisent le modèle ajusté pour créer des images du même sujet à partir de prompts textuels créatifs. Par conséquent, la construction d'un ensemble de données à grande échelle avec des millions de sujets peut nécessiter des centaines de milliers d'heures de GPU. Pour résoudre ce problème, nous proposons Toffee, une méthode efficace pour construire des ensembles de données destinés à l'édition et à la génération centrées sur des sujets. Plus précisément, notre construction d'ensemble de données ne nécessite aucun ajustement au niveau du sujet. Après avoir pré-entraîné deux modèles génératifs, nous sommes capables de générer un nombre infini d'échantillons de haute qualité. Nous construisons le premier ensemble de données à grande échelle pour l'édition et la génération d'images centrées sur des sujets, qui contient 5 millions de paires d'images, de prompts textuels et de masques. Notre ensemble de données est 5 fois plus grand que le précédent plus grand ensemble de données, tout en nécessitant des dizaines de milliers d'heures de GPU en moins. Pour tester l'ensemble de données proposé, nous proposons également un modèle capable à la fois d'édition et de génération d'images centrées sur des sujets. En entraînant simplement le modèle sur notre ensemble de données proposé, il obtient des résultats compétitifs, illustrant l'efficacité du cadre de construction d'ensemble de données proposé.
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.