DreamCache : Génération d'images personnalisées légère sans réglage fin via le stockage de caractéristiques
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
November 26, 2024
Auteurs: Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
cs.AI
Résumé
La génération d'images personnalisées nécessite des modèles génératifs texte-vers-image qui capturent les caractéristiques essentielles d'un sujet de référence pour permettre une génération contrôlée dans différents contextes. Les méthodes existantes sont confrontées à des défis en raison des exigences de formation complexes, des coûts élevés d'inférence, d'une flexibilité limitée, ou d'une combinaison de ces problèmes. Dans cet article, nous présentons DreamCache, une approche évolutive pour une génération efficace et de haute qualité d'images personnalisées. En mettant en cache un petit nombre de caractéristiques d'image de référence à partir d'un sous-ensemble de couches et d'un seul pas de temps du débruiteur de diffusion pré-entraîné, DreamCache permet une modulation dynamique des caractéristiques d'image générées grâce à des adaptateurs de conditionnement légers et entraînés. DreamCache atteint un alignement image-texte de pointe, en utilisant un ordre de grandeur moins de paramètres supplémentaires, et est à la fois plus efficace sur le plan computationnel et plus polyvalent que les modèles existants.
English
Personalized image generation requires text-to-image generative models that
capture the core features of a reference subject to allow for controlled
generation across different contexts. Existing methods face challenges due to
complex training requirements, high inference costs, limited flexibility, or a
combination of these issues. In this paper, we introduce DreamCache, a scalable
approach for efficient and high-quality personalized image generation. By
caching a small number of reference image features from a subset of layers and
a single timestep of the pretrained diffusion denoiser, DreamCache enables
dynamic modulation of the generated image features through lightweight, trained
conditioning adapters. DreamCache achieves state-of-the-art image and text
alignment, utilizing an order of magnitude fewer extra parameters, and is both
more computationally effective and versatile than existing models.Summary
AI-Generated Summary