ChatPaper.aiChatPaper

Localização Precisa de Parâmetros para Geração Textual em Modelos de Difusão

Precise Parameter Localization for Textual Generation in Diffusion Models

February 14, 2025
Autores: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI

Resumo

Novos modelos de difusão podem sintetizar imagens foto-realistas com texto integrado de alta qualidade. Surpreendentemente, demonstramos através de patches de ativação de atenção que menos de 1% dos parâmetros dos modelos de difusão, todos contidos nas camadas de atenção, influenciam a geração de conteúdo textual nas imagens. Com base nessa observação, melhoramos a eficiência e o desempenho da geração textual ao direcionar as camadas de atenção cruzada e conjunta dos modelos de difusão. Introduzimos várias aplicações que se beneficiam da localização das camadas responsáveis pela geração de conteúdo textual. Primeiro, mostramos que um ajuste fino baseado em LoRA, aplicado apenas às camadas localizadas, aprimora ainda mais as capacidades gerais de geração de texto de grandes modelos de difusão, preservando a qualidade e a diversidade das gerações dos modelos de difusão. Em seguida, demonstramos como podemos usar as camadas localizadas para editar o conteúdo textual em imagens geradas. Por fim, estendemos essa ideia para o caso prático de prevenir a geração de texto tóxico de maneira sem custo. Em contraste com trabalhos anteriores, nossa abordagem de localização é amplamente aplicável a várias arquiteturas de modelos de difusão, incluindo U-Net (por exemplo, LDM e SDXL) e baseadas em transformadores (por exemplo, DeepFloyd IF e Stable Diffusion 3), utilizando diversos codificadores de texto (por exemplo, desde CLIP até modelos de linguagem grandes como T5). Página do projeto disponível em https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated high-quality text. Surprisingly, we demonstrate through attention activation patching that only less than 1% of diffusion models' parameters, all contained in attention layers, influence the generation of textual content within the images. Building on this observation, we improve textual generation efficiency and performance by targeting cross and joint attention layers of diffusion models. We introduce several applications that benefit from localizing the layers responsible for textual content generation. We first show that a LoRA-based fine-tuning solely of the localized layers enhances, even more, the general text-generation capabilities of large diffusion models while preserving the quality and diversity of the diffusion models' generations. Then, we demonstrate how we can use the localized layers to edit textual content in generated images. Finally, we extend this idea to the practical use case of preventing the generation of toxic text in a cost-free manner. In contrast to prior work, our localization approach is broadly applicable across various diffusion model architectures, including U-Net (e.g., LDM and SDXL) and transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing diverse text encoders (e.g., from CLIP to the large language models like T5). Project page available at https://t2i-text-loc.github.io/.

Summary

AI-Generated Summary

PDF122February 17, 2025