ChatPaper.aiChatPaper

Conceptstuurders: Profiteren van K-Sparse Auto-encoders voor Controleerbare Generaties

Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations

January 31, 2025
Auteurs: Dahye Kim, Deepti Ghadiyaram
cs.AI

Samenvatting

Ondanks de opmerkelijke vooruitgang in tekst-naar-afbeelding generatieve modellen, zijn ze vatbaar voor aanvallen van tegenstanders en genereren ze onbedoeld onveilige, onethische inhoud. Bestaande benaderingen vertrouwen vaak op het fijnafstemmen van modellen om specifieke concepten te verwijderen, wat rekenkundig duur is, niet schaalbaar is en/of ten koste gaat van de generatiekwaliteit. In dit werk stellen we een nieuw raamwerk voor dat gebruikmaakt van k-sparse auto-encoders (k-SAE's) om efficiënte en interpreteerbare conceptmanipulatie in diffusiemodellen mogelijk te maken. Specifiek identificeren we eerst interpreteerbare monosemante concepten in de latente ruimte van tekst-embeddings en gebruiken we ze om de generatie precies af te leiden van of naar een bepaald concept (bijv. naaktheid) of om een nieuw concept te introduceren (bijv. fotografische stijl). Via uitgebreide experimenten tonen we aan dat onze aanpak zeer eenvoudig is, geen hertraining van het basismodel of LoRA-adapters vereist, de generatiekwaliteit niet in gevaar brengt en bestand is tegen manipulaties van tegenstanders. Onze methode leidt tot een verbetering van 20,01% in het verwijderen van onveilige concepten, is effectief in stijlmanipulatie en is 5 keer sneller dan de huidige state-of-the-art.
English
Despite the remarkable progress in text-to-image generative models, they are prone to adversarial attacks and inadvertently generate unsafe, unethical content. Existing approaches often rely on fine-tuning models to remove specific concepts, which is computationally expensive, lack scalability, and/or compromise generation quality. In this work, we propose a novel framework leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable concept manipulation in diffusion models. Specifically, we first identify interpretable monosemantic concepts in the latent space of text embeddings and leverage them to precisely steer the generation away or towards a given concept (e.g., nudity) or to introduce a new concept (e.g., photographic style). Through extensive experiments, we demonstrate that our approach is very simple, requires no retraining of the base model nor LoRA adapters, does not compromise the generation quality, and is robust to adversarial prompt manipulations. Our method yields an improvement of 20.01% in unsafe concept removal, is effective in style manipulation, and is sim5x faster than current state-of-the-art.

Summary

AI-Generated Summary

PDF132February 5, 2025