Toffee: Construção Eficiente de Conjuntos de Dados em Escala de Milhões para Geração de Imagens a partir de Texto Orientada a Assuntos

Resumo

Na geração de imagens a partir de texto orientada por sujeitos, trabalhos recentes alcançaram desempenho superior ao treinar o modelo em conjuntos de dados sintéticos contendo inúmeros pares de imagens. Treinados nesses conjuntos de dados, os modelos generativos podem produzir imagens alinhadas ao texto para um sujeito específico a partir de qualquer imagem de teste de maneira zero-shot. Eles até superam métodos que exigem ajuste fino adicional nas imagens de teste. No entanto, o custo de criar tais conjuntos de dados é proibitivo para a maioria dos pesquisadores. Para gerar um único par de treinamento, os métodos atuais ajustam um modelo pré-treinado de texto para imagem na imagem do sujeito para capturar detalhes refinados, em seguida, usam o modelo ajustado para criar imagens do mesmo sujeito com base em prompts de texto criativos. Consequentemente, a construção de um conjunto de dados em larga escala com milhões de sujeitos pode exigir centenas de milhares de horas de GPU. Para resolver esse problema, propomos o Toffee, um método eficiente para construir conjuntos de dados para edição e geração orientada por sujeitos. Especificamente, nossa construção de conjunto de dados não requer nenhum ajuste fino no nível do sujeito. Após o pré-treinamento de dois modelos generativos, somos capazes de gerar um número infinito de amostras de alta qualidade. Construímos o primeiro conjunto de dados em larga escala para edição e geração de imagens orientada por sujeitos, que contém 5 milhões de pares de imagens, prompts de texto e máscaras. Nosso conjunto de dados é 5 vezes maior que o maior conjunto de dados anterior, mas nosso custo é dezenas de milhares de horas de GPU menor. Para testar o conjunto de dados proposto, também propomos um modelo capaz de realizar tanto edição quanto geração de imagens orientada por sujeitos. Ao simplesmente treinar o modelo em nosso conjunto de dados proposto, ele obtém resultados competitivos, ilustrando a eficácia da estrutura proposta para construção de conjuntos de dados.

English

In subject-driven text-to-image generation, recent works have achieved superior performance by training the model on synthetic datasets containing numerous image pairs. Trained on these datasets, generative models can produce text-aligned images for specific subject from arbitrary testing image in a zero-shot manner. They even outperform methods which require additional fine-tuning on testing images. However, the cost of creating such datasets is prohibitive for most researchers. To generate a single training pair, current methods fine-tune a pre-trained text-to-image model on the subject image to capture fine-grained details, then use the fine-tuned model to create images for the same subject based on creative text prompts. Consequently, constructing a large-scale dataset with millions of subjects can require hundreds of thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient method to construct datasets for subject-driven editing and generation. Specifically, our dataset construction does not need any subject-level fine-tuning. After pre-training two generative models, we are able to generate infinite number of high-quality samples. We construct the first large-scale dataset for subject-driven image editing and generation, which contains 5 million image pairs, text prompts, and masks. Our dataset is 5 times the size of previous largest dataset, yet our cost is tens of thousands of GPU hours lower. To test the proposed dataset, we also propose a model which is capable of both subject-driven image editing and generation. By simply training the model on our proposed dataset, it obtains competitive results, illustrating the effectiveness of the proposed dataset construction framework.

Toffee: Construção Eficiente de Conjuntos de Dados em Escala de Milhões para Geração de Imagens a partir de Texto Orientada a Assuntos

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

Resumo

Support