Konzeptlenker: Nutzung von K-sparsen Autoencodern für steuerbare Generierungen
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations
January 31, 2025
Autoren: Dahye Kim, Deepti Ghadiyaram
cs.AI
Zusammenfassung
Trotz des bemerkenswerten Fortschritts bei textbasierten Bildgenerierungsmodellen sind sie anfällig für adversarielle Angriffe und generieren unbeabsichtigt unsichere, unethische Inhalte. Bestehende Ansätze stützen sich oft auf das Feintuning von Modellen, um bestimmte Konzepte zu entfernen, was rechnerisch aufwendig ist, die Skalierbarkeit beeinträchtigt und/oder die Generierungsqualität gefährdet. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das auf k-sparse Autoencodern (k-SAEs) basiert, um eine effiziente und interpretierbare Konzeptmanipulation in Diffusionsmodellen zu ermöglichen. Konkret identifizieren wir zunächst interpretierbare monosemantische Konzepte im latenten Raum von Texteinbettungen und nutzen sie, um die Generierung präzise von einem bestimmten Konzept (z.B. Nacktheit) abzulenken oder darauf zuzusteuern oder ein neues Konzept (z.B. fotografischer Stil) einzuführen. Durch umfangreiche Experimente zeigen wir, dass unser Ansatz sehr einfach ist, kein erneutes Training des Basismodells oder LoRA-Adapter erfordert, die Generierungsqualität nicht beeinträchtigt und gegen adversarielle Prompt-Manipulationen robust ist. Unsere Methode führt zu einer Verbesserung von 20,01% bei der Entfernung unsicherer Konzepte, ist effektiv bei Stilmanipulation und ist 5-mal schneller als der aktuelle Stand der Technik.
English
Despite the remarkable progress in text-to-image generative models, they are
prone to adversarial attacks and inadvertently generate unsafe, unethical
content. Existing approaches often rely on fine-tuning models to remove
specific concepts, which is computationally expensive, lack scalability, and/or
compromise generation quality. In this work, we propose a novel framework
leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable
concept manipulation in diffusion models. Specifically, we first identify
interpretable monosemantic concepts in the latent space of text embeddings and
leverage them to precisely steer the generation away or towards a given concept
(e.g., nudity) or to introduce a new concept (e.g., photographic style).
Through extensive experiments, we demonstrate that our approach is very simple,
requires no retraining of the base model nor LoRA adapters, does not compromise
the generation quality, and is robust to adversarial prompt manipulations. Our
method yields an improvement of 20.01% in unsafe concept removal,
is effective in style manipulation, and is sim5x faster than
current state-of-the-art.Summary
AI-Generated Summary