Precieze Parameterlokalisatie voor Tekstuele Generatie in Diffusiemodellen
Precise Parameter Localization for Textual Generation in Diffusion Models
February 14, 2025
Auteurs: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI
Samenvatting
Nieuwe diffusiemodellen kunnen foto-realistische afbeeldingen synthetiseren met geïntegreerde tekst van hoge kwaliteit. Verrassend genoeg tonen we door middel van aandacht-activeringspatching aan dat minder dan 1% van de parameters van diffusiemodellen, allemaal aanwezig in aandachtlagen, de generatie van tekstuele inhoud binnen de afbeeldingen beïnvloedt. Op basis van deze observatie verbeteren we de efficiëntie en prestaties van tekstgeneratie door ons te richten op de kruis- en gezamenlijke aandachtlagen van diffusiemodellen. We introduceren verschillende toepassingen die profiteren van het lokaliseren van de lagen die verantwoordelijk zijn voor tekstuele inhoudsgeneratie. We tonen eerst aan dat een LoRA-gebaseerde fine-tuning uitsluitend van de gelokaliseerde lagen de algemene tekstgeneratiecapaciteiten van grote diffusiemodellen verder verbetert, terwijl de kwaliteit en diversiteit van de generaties van de diffusiemodellen behouden blijven. Vervolgens demonstreren we hoe we de gelokaliseerde lagen kunnen gebruiken om tekstuele inhoud in gegenereerde afbeeldingen te bewerken. Ten slotte breiden we dit idee uit naar de praktische use case van het voorkomen van de generatie van giftige tekst op een kosteloze manier. In tegenstelling tot eerder werk is onze lokalisatiebenadering breed toepasbaar op verschillende diffusiemodelarchitecturen, waaronder U-Net (bijv. LDM en SDXL) en transformer-gebaseerde modellen (bijv. DeepFloyd IF en Stable Diffusion 3), waarbij diverse tekstencoders worden gebruikt (bijv. van CLIP tot grote taalmmodellen zoals T5). Projectpagina beschikbaar op https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated
high-quality text. Surprisingly, we demonstrate through attention activation
patching that only less than 1% of diffusion models' parameters, all contained
in attention layers, influence the generation of textual content within the
images. Building on this observation, we improve textual generation efficiency
and performance by targeting cross and joint attention layers of diffusion
models. We introduce several applications that benefit from localizing the
layers responsible for textual content generation. We first show that a
LoRA-based fine-tuning solely of the localized layers enhances, even more, the
general text-generation capabilities of large diffusion models while preserving
the quality and diversity of the diffusion models' generations. Then, we
demonstrate how we can use the localized layers to edit textual content in
generated images. Finally, we extend this idea to the practical use case of
preventing the generation of toxic text in a cost-free manner. In contrast to
prior work, our localization approach is broadly applicable across various
diffusion model architectures, including U-Net (e.g., LDM and SDXL) and
transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing
diverse text encoders (e.g., from CLIP to the large language models like T5).
Project page available at https://t2i-text-loc.github.io/.Summary
AI-Generated Summary