Toffee: Construção Eficiente de Conjuntos de Dados em Escala de Milhões para Geração de Imagens a partir de Texto Orientada a Assuntos
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
Autores: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
Resumo
Na geração de imagens a partir de texto orientada por sujeitos, trabalhos recentes alcançaram desempenho superior ao treinar o modelo em conjuntos de dados sintéticos contendo inúmeros pares de imagens. Treinados nesses conjuntos de dados, os modelos generativos podem produzir imagens alinhadas ao texto para um sujeito específico a partir de qualquer imagem de teste de maneira zero-shot. Eles até superam métodos que exigem ajuste fino adicional nas imagens de teste. No entanto, o custo de criar tais conjuntos de dados é proibitivo para a maioria dos pesquisadores. Para gerar um único par de treinamento, os métodos atuais ajustam um modelo pré-treinado de texto para imagem na imagem do sujeito para capturar detalhes refinados, em seguida, usam o modelo ajustado para criar imagens do mesmo sujeito com base em prompts de texto criativos. Consequentemente, a construção de um conjunto de dados em larga escala com milhões de sujeitos pode exigir centenas de milhares de horas de GPU. Para resolver esse problema, propomos o Toffee, um método eficiente para construir conjuntos de dados para edição e geração orientada por sujeitos. Especificamente, nossa construção de conjunto de dados não requer nenhum ajuste fino no nível do sujeito. Após o pré-treinamento de dois modelos generativos, somos capazes de gerar um número infinito de amostras de alta qualidade. Construímos o primeiro conjunto de dados em larga escala para edição e geração de imagens orientada por sujeitos, que contém 5 milhões de pares de imagens, prompts de texto e máscaras. Nosso conjunto de dados é 5 vezes maior que o maior conjunto de dados anterior, mas nosso custo é dezenas de milhares de horas de GPU menor. Para testar o conjunto de dados proposto, também propomos um modelo capaz de realizar tanto edição quanto geração de imagens orientada por sujeitos. Ao simplesmente treinar o modelo em nosso conjunto de dados proposto, ele obtém resultados competitivos, ilustrando a eficácia da estrutura proposta para construção de conjuntos de dados.
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.