Управляющие концепции: Использование K-разреженных автокодировщиков для управляемых генераций
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations
January 31, 2025
Авторы: Dahye Kim, Deepti Ghadiyaram
cs.AI
Аннотация
Несмотря на значительный прогресс в моделях генерации текста в изображения, они подвержены атакам злоумышленников и случайно создают небезопасный, неэтичный контент. Существующие подходы часто полагаются на донастройку моделей для удаления конкретных концепций, что является вычислительно затратным, не масштабируется и/или ухудшает качество генерации. В данной работе мы предлагаем новую концепцию, используя разреженные автокодировщики k-разреженности (k-SAE), чтобы обеспечить эффективное и интерпретируемое управление концепциями в моделях диффузии. Конкретно, мы сначала выявляем интерпретируемые моносемантические концепции в скрытом пространстве вложений текста и используем их для точного управления генерацией в сторону или от конкретного концепта (например, нагота) или для введения нового концепта (например, фотографический стиль). Через обширные эксперименты мы демонстрируем, что наш подход очень прост, не требует повторного обучения базовой модели или адаптеров LoRA, не ухудшает качество генерации и устойчив к манипуляциям злоумышленников с запросами. Наш метод приводит к улучшению на 20.01% в удалении небезопасных концепций, эффективен в манипуляции стилем и в 5 раз быстрее, чем текущий современный подход.
English
Despite the remarkable progress in text-to-image generative models, they are
prone to adversarial attacks and inadvertently generate unsafe, unethical
content. Existing approaches often rely on fine-tuning models to remove
specific concepts, which is computationally expensive, lack scalability, and/or
compromise generation quality. In this work, we propose a novel framework
leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable
concept manipulation in diffusion models. Specifically, we first identify
interpretable monosemantic concepts in the latent space of text embeddings and
leverage them to precisely steer the generation away or towards a given concept
(e.g., nudity) or to introduce a new concept (e.g., photographic style).
Through extensive experiments, we demonstrate that our approach is very simple,
requires no retraining of the base model nor LoRA adapters, does not compromise
the generation quality, and is robust to adversarial prompt manipulations. Our
method yields an improvement of 20.01% in unsafe concept removal,
is effective in style manipulation, and is sim5x faster than
current state-of-the-art.Summary
AI-Generated Summary