Guida di Indirizzamento: Sfruttare gli Autoencoder K-Sparsa per Generazioni Controllabili
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations
January 31, 2025
Autori: Dahye Kim, Deepti Ghadiyaram
cs.AI
Abstract
Nonostante i notevoli progressi nei modelli generativi di testo-immagine, sono soggetti ad attacchi avversari e generano involontariamente contenuti non sicuri ed eticamente discutibili. Gli approcci esistenti spesso si basano sul raffinamento dei modelli per rimuovere concetti specifici, il che è computazionalmente costoso, manca di scalabilità e/o compromette la qualità della generazione. In questo lavoro, proponiamo un nuovo framework che sfrutta gli autoencoder k-sparse (k-SAE) per consentire una manipolazione efficiente e interpretabile dei concetti nei modelli di diffusione. In particolare, identifichiamo innanzitutto concetti monosemantici interpretabili nello spazio latente degli embedding di testo e li sfruttiamo per guidare con precisione la generazione lontano o verso un dato concetto (ad esempio, nudità) o per introdurre un nuovo concetto (ad esempio, stile fotografico). Attraverso estesi esperimenti, dimostriamo che il nostro approccio è molto semplice, non richiede il ritraining del modello di base né adattatori LoRA, non compromette la qualità della generazione ed è robusto alle manipolazioni avversarie dei prompt. Il nostro metodo porta a un miglioramento del 20,01% nella rimozione dei concetti non sicuri, è efficace nella manipolazione dello stile ed è fino a 5 volte più veloce rispetto allo stato dell'arte attuale.
English
Despite the remarkable progress in text-to-image generative models, they are
prone to adversarial attacks and inadvertently generate unsafe, unethical
content. Existing approaches often rely on fine-tuning models to remove
specific concepts, which is computationally expensive, lack scalability, and/or
compromise generation quality. In this work, we propose a novel framework
leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable
concept manipulation in diffusion models. Specifically, we first identify
interpretable monosemantic concepts in the latent space of text embeddings and
leverage them to precisely steer the generation away or towards a given concept
(e.g., nudity) or to introduce a new concept (e.g., photographic style).
Through extensive experiments, we demonstrate that our approach is very simple,
requires no retraining of the base model nor LoRA adapters, does not compromise
the generation quality, and is robust to adversarial prompt manipulations. Our
method yields an improvement of 20.01% in unsafe concept removal,
is effective in style manipulation, and is sim5x faster than
current state-of-the-art.Summary
AI-Generated Summary