Toffee: Construcción Eficiente de Conjuntos de Datos a Escala de Millones para Generación de Imágenes a partir de Texto Basada en Temáticas
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
June 13, 2024
Autores: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI
Resumen
En la generación de imágenes a partir de texto impulsada por sujetos, trabajos recientes han logrado un rendimiento superior al entrenar el modelo en conjuntos de datos sintéticos que contienen numerosos pares de imágenes. Entrenados en estos conjuntos de datos, los modelos generativos pueden producir imágenes alineadas con el texto para un sujeto específico a partir de cualquier imagen de prueba de manera zero-shot. Incluso superan a métodos que requieren un ajuste fino adicional en las imágenes de prueba. Sin embargo, el costo de crear tales conjuntos de datos es prohibitivo para la mayoría de los investigadores. Para generar un solo par de entrenamiento, los métodos actuales ajustan un modelo preentrenado de texto a imagen en la imagen del sujeto para capturar detalles finos, luego usan el modelo ajustado para crear imágenes del mismo sujeto basadas en indicaciones de texto creativas. En consecuencia, construir un conjunto de datos a gran escala con millones de sujetos puede requerir cientos de miles de horas de GPU. Para abordar este problema, proponemos Toffee, un método eficiente para construir conjuntos de datos para la edición y generación impulsada por sujetos. Específicamente, nuestra construcción de conjuntos de datos no necesita ningún ajuste fino a nivel de sujeto. Después de preentrenar dos modelos generativos, podemos generar un número infinito de muestras de alta calidad. Construimos el primer conjunto de datos a gran escala para la edición y generación de imágenes impulsada por sujetos, que contiene 5 millones de pares de imágenes, indicaciones de texto y máscaras. Nuestro conjunto de datos es 5 veces más grande que el conjunto de datos más grande anterior, y nuestro costo es decenas de miles de horas de GPU menor. Para probar el conjunto de datos propuesto, también proponemos un modelo capaz de realizar tanto la edición como la generación de imágenes impulsada por sujetos. Al simplemente entrenar el modelo en nuestro conjunto de datos propuesto, obtiene resultados competitivos, lo que ilustra la efectividad del marco de construcción de conjuntos de datos propuesto.
English
In subject-driven text-to-image generation, recent works have achieved
superior performance by training the model on synthetic datasets containing
numerous image pairs. Trained on these datasets, generative models can produce
text-aligned images for specific subject from arbitrary testing image in a
zero-shot manner. They even outperform methods which require additional
fine-tuning on testing images. However, the cost of creating such datasets is
prohibitive for most researchers. To generate a single training pair, current
methods fine-tune a pre-trained text-to-image model on the subject image to
capture fine-grained details, then use the fine-tuned model to create images
for the same subject based on creative text prompts. Consequently, constructing
a large-scale dataset with millions of subjects can require hundreds of
thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient
method to construct datasets for subject-driven editing and generation.
Specifically, our dataset construction does not need any subject-level
fine-tuning. After pre-training two generative models, we are able to generate
infinite number of high-quality samples. We construct the first large-scale
dataset for subject-driven image editing and generation, which contains 5
million image pairs, text prompts, and masks. Our dataset is 5 times the size
of previous largest dataset, yet our cost is tens of thousands of GPU hours
lower. To test the proposed dataset, we also propose a model which is capable
of both subject-driven image editing and generation. By simply training the
model on our proposed dataset, it obtains competitive results, illustrating the
effectiveness of the proposed dataset construction framework.