ChatPaper.aiChatPaper

Localisation précise des paramètres pour la génération textuelle dans les modèles de diffusion

Precise Parameter Localization for Textual Generation in Diffusion Models

February 14, 2025
Auteurs: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI

Résumé

Les nouveaux modèles de diffusion peuvent synthétiser des images photo-réalistes intégrant du texte de haute qualité. Étonnamment, nous démontrons, grâce à l'analyse des activations d'attention, que moins de 1 % des paramètres des modèles de diffusion, tous contenus dans les couches d'attention, influencent la génération de contenu textuel dans les images. En nous appuyant sur cette observation, nous améliorons l'efficacité et les performances de la génération textuelle en ciblant les couches d'attention croisée et conjointe des modèles de diffusion. Nous introduisons plusieurs applications qui bénéficient de la localisation des couches responsables de la génération de contenu textuel. Nous montrons d'abord qu'un ajustement fin basé sur LoRA, appliqué uniquement aux couches localisées, améliore encore davantage les capacités générales de génération de texte des grands modèles de diffusion tout en préservant la qualité et la diversité des générations de ces modèles. Ensuite, nous démontrons comment nous pouvons utiliser les couches localisées pour éditer le contenu textuel dans les images générées. Enfin, nous étendons cette idée à un cas d'utilisation pratique consistant à empêcher la génération de texte toxique de manière gratuite. Contrairement aux travaux précédents, notre approche de localisation est largement applicable à diverses architectures de modèles de diffusion, y compris U-Net (par exemple, LDM et SDXL) et celles basées sur des transformateurs (par exemple, DeepFloyd IF et Stable Diffusion 3), utilisant divers encodeurs de texte (par exemple, de CLIP aux grands modèles de langage comme T5). Page du projet disponible à l'adresse suivante : https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated high-quality text. Surprisingly, we demonstrate through attention activation patching that only less than 1% of diffusion models' parameters, all contained in attention layers, influence the generation of textual content within the images. Building on this observation, we improve textual generation efficiency and performance by targeting cross and joint attention layers of diffusion models. We introduce several applications that benefit from localizing the layers responsible for textual content generation. We first show that a LoRA-based fine-tuning solely of the localized layers enhances, even more, the general text-generation capabilities of large diffusion models while preserving the quality and diversity of the diffusion models' generations. Then, we demonstrate how we can use the localized layers to edit textual content in generated images. Finally, we extend this idea to the practical use case of preventing the generation of toxic text in a cost-free manner. In contrast to prior work, our localization approach is broadly applicable across various diffusion model architectures, including U-Net (e.g., LDM and SDXL) and transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing diverse text encoders (e.g., from CLIP to the large language models like T5). Project page available at https://t2i-text-loc.github.io/.

Summary

AI-Generated Summary

PDF122February 17, 2025