Konditionierte Aktivierungstransport für T2I-Sicherheitssteuerung

Zusammenfassung

Trotz ihrer beeindruckenden Fähigkeiten neigen aktuelle Text-zu-Bild-Modelle (T2I) nach wie vor dazu, unsichere und toxische Inhalte zu generieren. Obwohl Aktivierungssteuerung eine vielversprechende Intervention zur Laufzeit bietet, stellen wir fest, dass lineare Aktivierungssteuerung die Bildqualität bei der Anwendung auf harmlose Prompts häufig beeinträchtigt. Um diesen Zielkonflikt zu adressieren, erstellen wir zunächst SafeSteerDataset, einen kontrastiven Datensatz mit 2300 Prompt-Paaren mit hoher Kosinus-Ähnlichkeit, die sichere und unsichere Inhalte gegenüberstellen. Aufbauend auf diesen Daten schlagen wir Conditioned Activation Transport (CAT) vor, ein Framework, das einen geometriebasierten Konditionierungsmechanismus und nichtlineare Transportabbildungen verwendet. Indem wir Transportabbildungen so konditionieren, dass sie nur in unsicheren Aktivierungsregionen wirksam werden, minimieren wir die Beeinträchtigung harmloser Anfragen. Wir validieren unseren Ansatz an zwei state-of-the-art Architekturen: Z-Image und Infinity. Experimente zeigen, dass CAT effektiv über diese Backbones generalisiert und die Angriffserfolgsrate signifikant reduziert, während gleichzeitig die Bildtreue im Vergleich zu ungesteuerten Generierungen erhalten bleibt. Warnung: Dieses Papier enthält möglicherweise anstößige Texte und Bilder.

English

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

Konditionierte Aktivierungstransport für T2I-Sicherheitssteuerung

Conditioned Activation Transport for T2I Safety Steering

Zusammenfassung

Support