Activación Condicionada para el Control de Seguridad en Texto a Imagen

Resumen

A pesar de sus impresionantes capacidades, los modelos actuales de Texto a Imagen (T2I) siguen siendo propensos a generar contenido inseguro y tóxico. Si bien la activación dirigida (activation steering) ofrece una intervención prometedora en tiempo de inferencia, observamos que esta técnica lineal frecuentemente degrada la calidad de la imagen cuando se aplica a instrucciones benignas. Para abordar esta disyuntiva, primero construimos SafeSteerDataset, un conjunto de datos contrastivo que contiene 2300 pares de instrucciones seguras e inseguras con alta similitud de coseno. Aprovechando estos datos, proponemos Conditioned Activation Transport (CAT), un marco de trabajo que emplea un mecanismo de condicionamiento basado en geometría y mapas de transporte no lineales. Al condicionar los mapas de transporte para que se activen únicamente dentro de las regiones de activación inseguras, minimizamos la interferencia con las consultas benignas. Validamos nuestro enfoque en dos arquitecturas de vanguardia: Z-Image e Infinity. Los experimentos demuestran que CAT se generaliza eficazmente en estos modelos base, reduciendo significativamente la Tasa de Éxito de Ataque mientras mantiene la fidelidad de la imagen en comparación con las generaciones sin intervención. Advertencia: Este artículo contiene texto e imágenes potencialmente ofensivos.

English

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

Activación Condicionada para el Control de Seguridad en Texto a Imagen

Conditioned Activation Transport for T2I Safety Steering

Resumen

Support