Localizzazione Precisa dei Parametri per la Generazione Testuale nei Modelli di Diffusione
Precise Parameter Localization for Textual Generation in Diffusion Models
February 14, 2025
Autori: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI
Abstract
I modelli di diffusione innovativi sono in grado di sintetizzare immagini fotorealistiche con testo integrato di alta qualità. Sorprendentemente, dimostriamo attraverso l'analisi delle attivazioni di attenzione che meno dell'1% dei parametri dei modelli di diffusione, tutti contenuti nei livelli di attenzione, influenzano la generazione del contenuto testuale all'interno delle immagini. Basandoci su questa osservazione, miglioriamo l'efficienza e le prestazioni della generazione testuale intervenendo sui livelli di attenzione incrociata e congiunta dei modelli di diffusione. Introduciamo diverse applicazioni che beneficiano della localizzazione dei livelli responsabili della generazione del contenuto testuale. In primo luogo, mostriamo che un fine-tuning basato su LoRA esclusivamente dei livelli localizzati migliora ulteriormente le capacità generali di generazione del testo dei grandi modelli di diffusione, preservando la qualità e la diversità delle generazioni dei modelli. Successivamente, dimostriamo come possiamo utilizzare i livelli localizzati per modificare il contenuto testuale nelle immagini generate. Infine, estendiamo questa idea al caso d'uso pratico di prevenire la generazione di testo tossico in modo gratuito. A differenza dei lavori precedenti, il nostro approccio di localizzazione è ampiamente applicabile a varie architetture di modelli di diffusione, inclusi U-Net (ad esempio, LDM e SDXL) e basati su transformer (ad esempio, DeepFloyd IF e Stable Diffusion 3), utilizzando diversi encoder di testo (ad esempio, da CLIP ai grandi modelli linguistici come T5). Pagina del progetto disponibile all'indirizzo https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated
high-quality text. Surprisingly, we demonstrate through attention activation
patching that only less than 1% of diffusion models' parameters, all contained
in attention layers, influence the generation of textual content within the
images. Building on this observation, we improve textual generation efficiency
and performance by targeting cross and joint attention layers of diffusion
models. We introduce several applications that benefit from localizing the
layers responsible for textual content generation. We first show that a
LoRA-based fine-tuning solely of the localized layers enhances, even more, the
general text-generation capabilities of large diffusion models while preserving
the quality and diversity of the diffusion models' generations. Then, we
demonstrate how we can use the localized layers to edit textual content in
generated images. Finally, we extend this idea to the practical use case of
preventing the generation of toxic text in a cost-free manner. In contrast to
prior work, our localization approach is broadly applicable across various
diffusion model architectures, including U-Net (e.g., LDM and SDXL) and
transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing
diverse text encoders (e.g., from CLIP to the large language models like T5).
Project page available at https://t2i-text-loc.github.io/.Summary
AI-Generated Summary