Concepteurs de direction : Exploiter les autoencodeurs K-épars pour des générations contrôlables
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations
January 31, 2025
Auteurs: Dahye Kim, Deepti Ghadiyaram
cs.AI
Résumé
Malgré les progrès remarquables réalisés dans les modèles génératifs de texte vers image, ils sont sujets aux attaques adverses et génèrent involontairement du contenu non sécurisé et non éthique. Les approches existantes reposent souvent sur le réglage fin des modèles pour éliminer des concepts spécifiques, ce qui est coûteux en termes de calcul, manque de scalabilité et/ou compromet la qualité de la génération. Dans ce travail, nous proposons un nouveau cadre exploitant des autoencodeurs k-épars (k-SAEs) pour permettre une manipulation efficace et interprétable des concepts dans les modèles de diffusion. Plus précisément, nous identifions d'abord des concepts monosémantiques interprétables dans l'espace latent des plongements de texte et les utilisons pour orienter précisément la génération loin ou vers un concept donné (par exemple, la nudité) ou pour introduire un nouveau concept (par exemple, le style photographique). À travers des expériences approfondies, nous démontrons que notre approche est très simple, ne nécessite pas de retravailler le modèle de base ni d'adaptateurs LoRA, ne compromet pas la qualité de la génération et est robuste aux manipulations adverses des instructions. Notre méthode entraîne une amélioration de 20,01 % dans l'élimination des concepts non sécurisés, est efficace dans la manipulation de style et est 5 fois plus rapide que l'état de l'art actuel.
English
Despite the remarkable progress in text-to-image generative models, they are
prone to adversarial attacks and inadvertently generate unsafe, unethical
content. Existing approaches often rely on fine-tuning models to remove
specific concepts, which is computationally expensive, lack scalability, and/or
compromise generation quality. In this work, we propose a novel framework
leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable
concept manipulation in diffusion models. Specifically, we first identify
interpretable monosemantic concepts in the latent space of text embeddings and
leverage them to precisely steer the generation away or towards a given concept
(e.g., nudity) or to introduce a new concept (e.g., photographic style).
Through extensive experiments, we demonstrate that our approach is very simple,
requires no retraining of the base model nor LoRA adapters, does not compromise
the generation quality, and is robust to adversarial prompt manipulations. Our
method yields an improvement of 20.01% in unsafe concept removal,
is effective in style manipulation, and is sim5x faster than
current state-of-the-art.Summary
AI-Generated Summary