Toffee: Эффективное создание миллионных наборов данных для генерации изображений по тексту, управляемых субъектом
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
Авторы: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
Аннотация
В текстово-изображенческой генерации, основанной на объектах, недавние работы достигли превосходных результатов, обучая модель на синтетических наборах данных, содержащих множество пар изображений. Обученные на этих наборах данных, генеративные модели могут создавать изображения, соотнесенные с текстом, для конкретного объекта из произвольного тестового изображения в режиме нулевой настройки. Они даже превосходят методы, требующие дополнительной настройки на тестовых изображениях. Однако стоимость создания таких наборов данных является запредельной для большинства исследователей. Для создания одной обучающей пары текущие методы настраивают заранее обученную модель текст-изображение на изображении объекта для захвата мелких деталей, затем используют настроенную модель для создания изображений для того же объекта на основе творческих текстовых подсказок. Следовательно, создание крупномасштабного набора данных с миллионами объектов может потребовать сотен тысяч часов GPU. Для решения этой проблемы мы предлагаем Toffee, эффективный метод создания наборов данных для редактирования и генерации, основанных на объектах. Конкретно, наша конструкция набора данных не требует настройки на уровне объекта. После предварительного обучения двух генеративных моделей мы можем создавать бесконечное количество высококачественных образцов. Мы создаем первый крупномасштабный набор данных для редактирования и генерации изображений, основанный на объектах, который содержит 5 миллионов пар изображений, текстовых подсказок и масок. Наш набор данных в 5 раз превышает размер предыдущего крупнейшего набора данных, однако наши затраты на порядки ниже - десятки тысяч часов GPU. Для тестирования предложенного набора данных мы также предлагаем модель, способную как к редактированию, так и к генерации изображений, основанных на объектах. Просто обучив модель на нашем предложенном наборе данных, мы получаем конкурентоспособные результаты, демонстрируя эффективность предложенной структуры создания набора данных.
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.