Auto-Difusión para Generación de Imágenes Personalizadas sin Entrenamiento
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
November 27, 2024
Autores: Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
cs.AI
Resumen
Los modelos de difusión texto-imagen producen resultados impresionantes pero son herramientas frustrantes para artistas que desean un control detallado. Por ejemplo, un caso de uso común es crear imágenes de una instancia específica en contextos novedosos, es decir, "generación preservando la identidad". Esta configuración, junto con muchas otras tareas (por ejemplo, cambio de iluminación), se adapta naturalmente a los modelos generativos condicionales de imagen+texto. Sin embargo, no hay datos emparejados de alta calidad suficientes para entrenar directamente dicho modelo. Proponemos la Auto-Destilación por Difusión, un método para utilizar un modelo pre-entrenado de texto a imagen para generar su propio conjunto de datos para tareas de imagen a imagen condicionadas por texto. Primero aprovechamos la capacidad de generación en contexto de un modelo de difusión de texto a imagen para crear cuadrículas de imágenes y curar un gran conjunto de datos emparejados con la ayuda de un Modelo Visual-Lenguaje. Luego ajustamos finamente el modelo de texto a imagen a un modelo de texto+imagen a imagen utilizando el conjunto de datos emparejados curados. Demostramos que la Auto-Destilación por Difusión supera a los métodos de cero disparo existentes y es competitiva con técnicas de ajuste por instancia en una amplia gama de tareas de generación de preservación de identidad, sin requerir optimización en tiempo de prueba.
English
Text-to-image diffusion models produce impressive results but are frustrating
tools for artists who desire fine-grained control. For example, a common use
case is to create images of a specific instance in novel contexts, i.e.,
"identity-preserving generation". This setting, along with many other tasks
(e.g., relighting), is a natural fit for image+text-conditional generative
models. However, there is insufficient high-quality paired data to train such a
model directly. We propose Diffusion Self-Distillation, a method for using a
pre-trained text-to-image model to generate its own dataset for
text-conditioned image-to-image tasks. We first leverage a text-to-image
diffusion model's in-context generation ability to create grids of images and
curate a large paired dataset with the help of a Visual-Language Model. We then
fine-tune the text-to-image model into a text+image-to-image model using the
curated paired dataset. We demonstrate that Diffusion Self-Distillation
outperforms existing zero-shot methods and is competitive with per-instance
tuning techniques on a wide range of identity-preservation generation tasks,
without requiring test-time optimization.Summary
AI-Generated Summary