ChatPaper.aiChatPaper

Konzeptlenker: Nutzung von K-sparsen Autoencodern für steuerbare Generierungen

Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations

January 31, 2025
Autoren: Dahye Kim, Deepti Ghadiyaram
cs.AI

Zusammenfassung

Trotz des bemerkenswerten Fortschritts bei textbasierten Bildgenerierungsmodellen sind sie anfällig für adversarielle Angriffe und generieren unbeabsichtigt unsichere, unethische Inhalte. Bestehende Ansätze stützen sich oft auf das Feintuning von Modellen, um bestimmte Konzepte zu entfernen, was rechnerisch aufwendig ist, die Skalierbarkeit beeinträchtigt und/oder die Generierungsqualität gefährdet. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das auf k-sparse Autoencodern (k-SAEs) basiert, um eine effiziente und interpretierbare Konzeptmanipulation in Diffusionsmodellen zu ermöglichen. Konkret identifizieren wir zunächst interpretierbare monosemantische Konzepte im latenten Raum von Texteinbettungen und nutzen sie, um die Generierung präzise von einem bestimmten Konzept (z.B. Nacktheit) abzulenken oder darauf zuzusteuern oder ein neues Konzept (z.B. fotografischer Stil) einzuführen. Durch umfangreiche Experimente zeigen wir, dass unser Ansatz sehr einfach ist, kein erneutes Training des Basismodells oder LoRA-Adapter erfordert, die Generierungsqualität nicht beeinträchtigt und gegen adversarielle Prompt-Manipulationen robust ist. Unsere Methode führt zu einer Verbesserung von 20,01% bei der Entfernung unsicherer Konzepte, ist effektiv bei Stilmanipulation und ist 5-mal schneller als der aktuelle Stand der Technik.
English
Despite the remarkable progress in text-to-image generative models, they are prone to adversarial attacks and inadvertently generate unsafe, unethical content. Existing approaches often rely on fine-tuning models to remove specific concepts, which is computationally expensive, lack scalability, and/or compromise generation quality. In this work, we propose a novel framework leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable concept manipulation in diffusion models. Specifically, we first identify interpretable monosemantic concepts in the latent space of text embeddings and leverage them to precisely steer the generation away or towards a given concept (e.g., nudity) or to introduce a new concept (e.g., photographic style). Through extensive experiments, we demonstrate that our approach is very simple, requires no retraining of the base model nor LoRA adapters, does not compromise the generation quality, and is robust to adversarial prompt manipulations. Our method yields an improvement of 20.01% in unsafe concept removal, is effective in style manipulation, and is sim5x faster than current state-of-the-art.

Summary

AI-Generated Summary

PDF132February 5, 2025