Präzise Parameterlokalisierung für die textuelle Generierung in Diffusionsmodellen
Precise Parameter Localization for Textual Generation in Diffusion Models
February 14, 2025
Autoren: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI
Zusammenfassung
Neuartige Diffusionsmodelle können fotorealistische Bilder mit integriertem hochwertigem Text synthetisieren. Überraschenderweise zeigen wir durch die Aktivierung von Aufmerksamkeits-Patches, dass nur weniger als 1% der Parameter der Diffusionsmodelle, die alle in Aufmerksamkeitsschichten enthalten sind, die Generierung von Textinhalten innerhalb der Bilder beeinflussen. Aufbauend auf dieser Beobachtung verbessern wir die Effizienz und Leistung der Textgenerierung, indem wir uns auf Kreuz- und gemeinsame Aufmerksamkeitsschichten der Diffusionsmodelle konzentrieren. Wir stellen mehrere Anwendungen vor, die von der Lokalisierung der Schichten, die für die Generierung von Textinhalten verantwortlich sind, profitieren. Zunächst zeigen wir, dass ein LoRA-basiertes Feintuning ausschließlich der lokalisierten Schichten die allgemeinen Textgenerierungsfähigkeiten großer Diffusionsmodelle weiter verbessert, während die Qualität und Vielfalt der Generationen der Diffusionsmodelle erhalten bleiben. Anschließend demonstrieren wir, wie wir die lokalisierten Schichten verwenden können, um Textinhalte in generierten Bildern zu bearbeiten. Schließlich erweitern wir diese Idee auf den praktischen Anwendungsfall der Verhinderung der Generierung von toxischem Text auf kostengünstige Weise. Im Gegensatz zu früheren Arbeiten ist unser Lokalisierungsansatz breit anwendbar auf verschiedene Architekturen von Diffusionsmodellen, einschließlich U-Net (z.B. LDM und SDXL) und transformerbasierten Modellen (z.B. DeepFloyd IF und Stable Diffusion 3), unter Verwendung verschiedener Textkodierer (z.B. von CLIP bis zu großen Sprachmodellen wie T5). Projektseite verfügbar unter https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated
high-quality text. Surprisingly, we demonstrate through attention activation
patching that only less than 1% of diffusion models' parameters, all contained
in attention layers, influence the generation of textual content within the
images. Building on this observation, we improve textual generation efficiency
and performance by targeting cross and joint attention layers of diffusion
models. We introduce several applications that benefit from localizing the
layers responsible for textual content generation. We first show that a
LoRA-based fine-tuning solely of the localized layers enhances, even more, the
general text-generation capabilities of large diffusion models while preserving
the quality and diversity of the diffusion models' generations. Then, we
demonstrate how we can use the localized layers to edit textual content in
generated images. Finally, we extend this idea to the practical use case of
preventing the generation of toxic text in a cost-free manner. In contrast to
prior work, our localization approach is broadly applicable across various
diffusion model architectures, including U-Net (e.g., LDM and SDXL) and
transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing
diverse text encoders (e.g., from CLIP to the large language models like T5).
Project page available at https://t2i-text-loc.github.io/.Summary
AI-Generated Summary