Direcionadores de Conceito: Alavancando Autoencoders K-Esparso para Gerações Controláveis
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations
January 31, 2025
Autores: Dahye Kim, Deepti Ghadiyaram
cs.AI
Resumo
Apesar do notável progresso em modelos generativos de texto para imagem, eles são propensos a ataques adversariais e geram inadvertidamente conteúdo inseguro e antiético. As abordagens existentes frequentemente dependem do ajuste fino dos modelos para remover conceitos específicos, o que é computacionalmente caro, carece de escalabilidade e/ou compromete a qualidade da geração. Neste trabalho, propomos um novo framework que utiliza autoencoders k-esparsos (k-SAEs) para possibilitar a manipulação eficiente e interpretável de conceitos em modelos de difusão. Especificamente, identificamos primeiramente conceitos monossemânticos interpretáveis no espaço latente dos embeddings de texto e os utilizamos para direcionar precisamente a geração para longe ou em direção a um conceito específico (por exemplo, nudez) ou para introduzir um novo conceito (por exemplo, estilo fotográfico). Através de experimentos extensivos, demonstramos que nossa abordagem é muito simples, não requer retrabalho do modelo base nem adaptadores LoRA, não compromete a qualidade da geração e é robusta a manipulações adversariais de prompts. Nosso método resulta em uma melhoria de 20,01% na remoção de conceitos inseguros, é eficaz na manipulação de estilo e é 5 vezes mais rápido do que o estado-da-arte atual.
English
Despite the remarkable progress in text-to-image generative models, they are
prone to adversarial attacks and inadvertently generate unsafe, unethical
content. Existing approaches often rely on fine-tuning models to remove
specific concepts, which is computationally expensive, lack scalability, and/or
compromise generation quality. In this work, we propose a novel framework
leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable
concept manipulation in diffusion models. Specifically, we first identify
interpretable monosemantic concepts in the latent space of text embeddings and
leverage them to precisely steer the generation away or towards a given concept
(e.g., nudity) or to introduce a new concept (e.g., photographic style).
Through extensive experiments, we demonstrate that our approach is very simple,
requires no retraining of the base model nor LoRA adapters, does not compromise
the generation quality, and is robust to adversarial prompt manipulations. Our
method yields an improvement of 20.01% in unsafe concept removal,
is effective in style manipulation, and is sim5x faster than
current state-of-the-art.Summary
AI-Generated Summary