ChatPaper.aiChatPaper

Auto-Distillation de la Diffusion pour la Génération d'Images Personnalisées sans Pré-Entraînement

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

November 27, 2024
Auteurs: Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
cs.AI

Résumé

Les modèles de diffusion texte-vers-image produisent des résultats impressionnants mais sont des outils frustrants pour les artistes qui recherchent un contrôle précis. Par exemple, un cas d'utilisation courant est de créer des images d'une instance spécifique dans des contextes nouveaux, c'est-à-dire une "génération préservant l'identité". Ce scénario, ainsi que de nombreuses autres tâches (par exemple, le reéclairage), se prêtent naturellement aux modèles génératifs conditionnés texte+image. Cependant, il n'existe pas suffisamment de données appariées de haute qualité pour entraîner un tel modèle directement. Nous proposons la Distillation Auto-diffusion, une méthode pour utiliser un modèle texte-vers-image pré-entraîné pour générer son propre ensemble de données pour les tâches image-vers-image conditionnées par le texte. Nous exploitons d'abord la capacité de génération en contexte d'un modèle de diffusion texte-vers-image pour créer des grilles d'images et constituer un grand ensemble de données appariées avec l'aide d'un Modèle Langage-Image. Ensuite, nous affinons le modèle texte-vers-image en un modèle texte+image-vers-image en utilisant l'ensemble de données appariées constitué. Nous démontrons que la Distillation Auto-diffusion surpasse les méthodes de zéro-shot existantes et est compétitive avec les techniques de réglage par instance sur un large éventail de tâches de génération préservant l'identité, sans nécessiter d'optimisation au moment du test.
English
Text-to-image diffusion models produce impressive results but are frustrating tools for artists who desire fine-grained control. For example, a common use case is to create images of a specific instance in novel contexts, i.e., "identity-preserving generation". This setting, along with many other tasks (e.g., relighting), is a natural fit for image+text-conditional generative models. However, there is insufficient high-quality paired data to train such a model directly. We propose Diffusion Self-Distillation, a method for using a pre-trained text-to-image model to generate its own dataset for text-conditioned image-to-image tasks. We first leverage a text-to-image diffusion model's in-context generation ability to create grids of images and curate a large paired dataset with the help of a Visual-Language Model. We then fine-tune the text-to-image model into a text+image-to-image model using the curated paired dataset. We demonstrate that Diffusion Self-Distillation outperforms existing zero-shot methods and is competitive with per-instance tuning techniques on a wide range of identity-preservation generation tasks, without requiring test-time optimization.

Summary

AI-Generated Summary

PDF166November 28, 2024