Localización precisa de parámetros para la generación textual en modelos de difusión
Precise Parameter Localization for Textual Generation in Diffusion Models
February 14, 2025
Autores: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI
Resumen
Los modelos de difusión novedosos pueden sintetizar imágenes fotorrealistas con texto integrado de alta calidad. Sorprendentemente, demostramos mediante la manipulación de activaciones de atención que menos del 1% de los parámetros de los modelos de difusión, todos contenidos en las capas de atención, influyen en la generación de contenido textual dentro de las imágenes. Basándonos en esta observación, mejoramos la eficiencia y el rendimiento de la generación textual al enfocarnos en las capas de atención cruzada y conjunta de los modelos de difusión. Introducimos varias aplicaciones que se benefician de la localización de las capas responsables de la generación de contenido textual. Primero, mostramos que un ajuste fino basado en LoRA, aplicado únicamente a las capas localizadas, mejora aún más las capacidades generales de generación de texto de los grandes modelos de difusión, preservando la calidad y diversidad de las generaciones de estos modelos. Luego, demostramos cómo podemos utilizar las capas localizadas para editar el contenido textual en imágenes generadas. Finalmente, extendemos esta idea al caso práctico de prevenir la generación de texto tóxico de manera gratuita. A diferencia de trabajos anteriores, nuestro enfoque de localización es ampliamente aplicable a diversas arquitecturas de modelos de difusión, incluyendo U-Net (por ejemplo, LDM y SDXL) y basadas en transformadores (por ejemplo, DeepFloyd IF y Stable Diffusion 3), utilizando diversos codificadores de texto (desde CLIP hasta modelos de lenguaje grandes como T5). Página del proyecto disponible en https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated
high-quality text. Surprisingly, we demonstrate through attention activation
patching that only less than 1% of diffusion models' parameters, all contained
in attention layers, influence the generation of textual content within the
images. Building on this observation, we improve textual generation efficiency
and performance by targeting cross and joint attention layers of diffusion
models. We introduce several applications that benefit from localizing the
layers responsible for textual content generation. We first show that a
LoRA-based fine-tuning solely of the localized layers enhances, even more, the
general text-generation capabilities of large diffusion models while preserving
the quality and diversity of the diffusion models' generations. Then, we
demonstrate how we can use the localized layers to edit textual content in
generated images. Finally, we extend this idea to the practical use case of
preventing the generation of toxic text in a cost-free manner. In contrast to
prior work, our localization approach is broadly applicable across various
diffusion model architectures, including U-Net (e.g., LDM and SDXL) and
transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing
diverse text encoders (e.g., from CLIP to the large language models like T5).
Project page available at https://t2i-text-loc.github.io/.Summary
AI-Generated Summary