Controladores de Conceptos: Aprovechando Autoencoders K-Esparso para Generaciones Controlables
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations
January 31, 2025
Autores: Dahye Kim, Deepti Ghadiyaram
cs.AI
Resumen
A pesar del notable progreso en los modelos generativos de texto a imagen, son susceptibles a ataques adversariales y generan inadvertidamente contenido inseguro e inético. Los enfoques existentes a menudo dependen de ajustar finamente los modelos para eliminar conceptos específicos, lo cual es computacionalmente costoso, carece de escalabilidad y/o compromete la calidad de generación. En este trabajo, proponemos un marco novedoso que aprovecha los autoencoders k-esparsos (k-SAEs) para permitir una manipulación eficiente e interpretable de conceptos en modelos de difusión. Específicamente, identificamos primero conceptos monosemánticos interpretables en el espacio latente de incrustaciones de texto y los utilizamos para dirigir con precisión la generación hacia o lejos de un concepto dado (por ejemplo, desnudez) o para introducir un nuevo concepto (por ejemplo, estilo fotográfico). A través de experimentos extensos, demostramos que nuestro enfoque es muy simple, no requiere el reentrenamiento del modelo base ni adaptadores LoRA, no compromete la calidad de generación y es resistente a manipulaciones adversariales de la indicación. Nuestro método produce una mejora del 20.01% en la eliminación de conceptos inseguros, es efectivo en la manipulación de estilos y es hasta 5 veces más rápido que el estado del arte actual.
English
Despite the remarkable progress in text-to-image generative models, they are
prone to adversarial attacks and inadvertently generate unsafe, unethical
content. Existing approaches often rely on fine-tuning models to remove
specific concepts, which is computationally expensive, lack scalability, and/or
compromise generation quality. In this work, we propose a novel framework
leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable
concept manipulation in diffusion models. Specifically, we first identify
interpretable monosemantic concepts in the latent space of text embeddings and
leverage them to precisely steer the generation away or towards a given concept
(e.g., nudity) or to introduce a new concept (e.g., photographic style).
Through extensive experiments, we demonstrate that our approach is very simple,
requires no retraining of the base model nor LoRA adapters, does not compromise
the generation quality, and is robust to adversarial prompt manipulations. Our
method yields an improvement of 20.01% in unsafe concept removal,
is effective in style manipulation, and is sim5x faster than
current state-of-the-art.Summary
AI-Generated Summary