ChatPaper.aiChatPaper

ViCo : Condition visuelle préservant les détails pour la génération personnalisée d'images à partir de texte

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

June 1, 2023
Auteurs: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
cs.AI

Résumé

La génération personnalisée d'images à partir de texte utilisant des modèles de diffusion a récemment été proposée et a suscité beaucoup d'attention. Étant donné un petit nombre d'images contenant un concept nouveau (par exemple, un jouet unique), nous cherchons à ajuster le modèle génératif pour capturer les détails visuels fins de ce concept et générer des images photoréalistes en suivant une condition textuelle. Nous présentons une méthode plug-in, nommée ViCo, pour une génération personnalisée rapide et légère. Plus précisément, nous proposons un module d'attention sur les images pour conditionner le processus de diffusion sur la sémantique visuelle par patch. Nous introduisons un masque d'objet basé sur l'attention qui est obtenu presque sans coût supplémentaire à partir du module d'attention. De plus, nous concevons une régularisation simple basée sur les propriétés intrinsèques des cartes d'attention texte-image pour atténuer la dégradation courante due au surajustement. Contrairement à de nombreux modèles existants, notre méthode ne procède à aucun ajustement fin des paramètres du modèle de diffusion original. Cela permet un déploiement de modèle plus flexible et transférable. Avec seulement un entraînement léger des paramètres (~6% de l'U-Net de diffusion), notre méthode atteint des performances comparables ou même supérieures à tous les modèles de pointe, tant qualitativement que quantitativement.
English
Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.
PDF40December 15, 2024