Transport d'Activation Conditionnée pour le Contrôle de Sécurité T2I

Résumé

Malgré leurs capacités impressionnantes, les modèles actuels de génération d'images à partir de texte (T2I) restent susceptibles de produire du contenu non sécurisé et toxique. Si le pilotage des activations représente une intervention prometteuse au moment de l'inférence, nous observons qu'un pilotage linéaire des activations dégrade fréquemment la qualité de l'image lorsqu'il est appliqué à des requêtes bénignes. Pour résoudre ce compromis, nous construisons d'abord SafeSteerDataset, un jeu de données contrastif contenant 2300 paires de requêtes sûres et non sûres avec une similarité cosinus élevée. En nous appuyant sur ces données, nous proposons le Conditioned Activation Transport (CAT), un cadre qui utilise un mécanisme de conditionnement géométrique et des applications de transport non linéaires. En conditionnant les applications de transport pour qu'elles ne s'activent que dans les régions d'activation non sûres, nous minimisons l'interférence avec les requêtes bénignes. Nous validons notre approche sur deux architectures de pointe : Z-Image et Infinity. Les expériences démontrent que CAT se généralise efficacement sur ces backbones, réduisant significativement le taux de réussite des attaques tout en préservant la fidélité de l'image par rapport aux générations non pilotées. Avertissement : Cet article contient du texte et des images potentiellement offensants.

English

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

Transport d'Activation Conditionnée pour le Contrôle de Sécurité T2I

Conditioned Activation Transport for T2I Safety Steering

Résumé

Support