ChatPaper.aiChatPaper

Auto-Difusión para Generación de Imágenes Personalizadas sin Entrenamiento

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

November 27, 2024
Autores: Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
cs.AI

Resumen

Los modelos de difusión texto-imagen producen resultados impresionantes pero son herramientas frustrantes para artistas que desean un control detallado. Por ejemplo, un caso de uso común es crear imágenes de una instancia específica en contextos novedosos, es decir, "generación preservando la identidad". Esta configuración, junto con muchas otras tareas (por ejemplo, cambio de iluminación), se adapta naturalmente a los modelos generativos condicionales de imagen+texto. Sin embargo, no hay datos emparejados de alta calidad suficientes para entrenar directamente dicho modelo. Proponemos la Auto-Destilación por Difusión, un método para utilizar un modelo pre-entrenado de texto a imagen para generar su propio conjunto de datos para tareas de imagen a imagen condicionadas por texto. Primero aprovechamos la capacidad de generación en contexto de un modelo de difusión de texto a imagen para crear cuadrículas de imágenes y curar un gran conjunto de datos emparejados con la ayuda de un Modelo Visual-Lenguaje. Luego ajustamos finamente el modelo de texto a imagen a un modelo de texto+imagen a imagen utilizando el conjunto de datos emparejados curados. Demostramos que la Auto-Destilación por Difusión supera a los métodos de cero disparo existentes y es competitiva con técnicas de ajuste por instancia en una amplia gama de tareas de generación de preservación de identidad, sin requerir optimización en tiempo de prueba.
English
Text-to-image diffusion models produce impressive results but are frustrating tools for artists who desire fine-grained control. For example, a common use case is to create images of a specific instance in novel contexts, i.e., "identity-preserving generation". This setting, along with many other tasks (e.g., relighting), is a natural fit for image+text-conditional generative models. However, there is insufficient high-quality paired data to train such a model directly. We propose Diffusion Self-Distillation, a method for using a pre-trained text-to-image model to generate its own dataset for text-conditioned image-to-image tasks. We first leverage a text-to-image diffusion model's in-context generation ability to create grids of images and curate a large paired dataset with the help of a Visual-Language Model. We then fine-tune the text-to-image model into a text+image-to-image model using the curated paired dataset. We demonstrate that Diffusion Self-Distillation outperforms existing zero-shot methods and is competitive with per-instance tuning techniques on a wide range of identity-preservation generation tasks, without requiring test-time optimization.

Summary

AI-Generated Summary

PDF166November 28, 2024