Точная локализация параметров для текстовой генерации в моделях диффузии
Precise Parameter Localization for Textual Generation in Diffusion Models
February 14, 2025
Авторы: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
cs.AI
Аннотация
Новые модели диффузии могут синтезировать фотореалистичные изображения с интегрированным высококачественным текстом. Удивительно, что мы демонстрируем через активацию внимания, что менее 1% параметров моделей диффузии, все содержащиеся в слоях внимания, влияют на генерацию текстового контента в изображениях. Основываясь на этом наблюдении, мы улучшаем эффективность и производительность генерации текста, нацеливаясь на слои кросс- и совместного внимания моделей диффузии. Мы представляем несколько приложений, которые выигрывают от локализации слоев, ответственных за генерацию текстового контента. Сначала мы показываем, что тонкая настройка на основе LoRA только локализованных слоев улучшает общие возможности генерации текста больших моделей диффузии, сохраняя качество и разнообразие генераций моделей диффузии. Затем мы демонстрируем, как мы можем использовать локализованные слои для редактирования текстового контента в сгенерированных изображениях. Наконец, мы расширяем эту идею до практического случая предотвращения генерации токсичного текста бесплатным способом. В отличие от предыдущих работ, наш подход к локализации широко применим в различных архитектурах моделей диффузии, включая U-Net (например, LDM и SDXL) и на основе трансформера (например, DeepFloyd IF и Stable Diffusion 3), используя разнообразные текстовые кодировщики (например, от CLIP до крупных языковых моделей, таких как T5). Страница проекта доступна по адресу https://t2i-text-loc.github.io/.
English
Novel diffusion models can synthesize photo-realistic images with integrated
high-quality text. Surprisingly, we demonstrate through attention activation
patching that only less than 1% of diffusion models' parameters, all contained
in attention layers, influence the generation of textual content within the
images. Building on this observation, we improve textual generation efficiency
and performance by targeting cross and joint attention layers of diffusion
models. We introduce several applications that benefit from localizing the
layers responsible for textual content generation. We first show that a
LoRA-based fine-tuning solely of the localized layers enhances, even more, the
general text-generation capabilities of large diffusion models while preserving
the quality and diversity of the diffusion models' generations. Then, we
demonstrate how we can use the localized layers to edit textual content in
generated images. Finally, we extend this idea to the practical use case of
preventing the generation of toxic text in a cost-free manner. In contrast to
prior work, our localization approach is broadly applicable across various
diffusion model architectures, including U-Net (e.g., LDM and SDXL) and
transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing
diverse text encoders (e.g., from CLIP to the large language models like T5).
Project page available at https://t2i-text-loc.github.io/.Summary
AI-Generated Summary