Auto-Difusão para Geração Personalizada de Imagens sem Treinamento

Resumo

Os modelos de difusão texto-imagem produzem resultados impressionantes, mas são ferramentas frustrantes para artistas que desejam um controle detalhado. Por exemplo, um caso comum de uso é criar imagens de uma instância específica em contextos novos, ou seja, "geração preservando identidade". Esse cenário, juntamente com muitas outras tarefas (por exemplo, relighting), é adequado naturalmente para modelos generativos condicionais de imagem+texto. No entanto, há uma falta de dados emparelhados de alta qualidade para treinar tal modelo diretamente. Propomos a Auto-Destilação por Difusão, um método para usar um modelo pré-treinado texto-imagem para gerar seu próprio conjunto de dados para tarefas de imagem para imagem condicionadas por texto. Primeiramente, aproveitamos a capacidade de geração no contexto de um modelo de difusão texto-imagem para criar grades de imagens e curar um grande conjunto de dados emparelhados com a ajuda de um Modelo Visual-Linguagem. Em seguida, ajustamos finamente o modelo texto-imagem para um modelo texto+imagem para imagem usando o conjunto de dados emparelhados curados. Demonstramos que a Auto-Destilação por Difusão supera os métodos zero-shot existentes e é competitiva com técnicas de ajuste por instância em uma ampla gama de tarefas de geração de preservação de identidade, sem exigir otimização no momento do teste.

English

Text-to-image diffusion models produce impressive results but are frustrating tools for artists who desire fine-grained control. For example, a common use case is to create images of a specific instance in novel contexts, i.e., "identity-preserving generation". This setting, along with many other tasks (e.g., relighting), is a natural fit for image+text-conditional generative models. However, there is insufficient high-quality paired data to train such a model directly. We propose Diffusion Self-Distillation, a method for using a pre-trained text-to-image model to generate its own dataset for text-conditioned image-to-image tasks. We first leverage a text-to-image diffusion model's in-context generation ability to create grids of images and curate a large paired dataset with the help of a Visual-Language Model. We then fine-tune the text-to-image model into a text+image-to-image model using the curated paired dataset. We demonstrate that Diffusion Self-Distillation outperforms existing zero-shot methods and is competitive with per-instance tuning techniques on a wide range of identity-preservation generation tasks, without requiring test-time optimization.

Auto-Difusão para Geração Personalizada de Imagens sem Treinamento

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Resumo

Support