Geconditioneerde Activatie Transport voor T2I Veiligheidssturing

Samenvatting

Ondanks hun indrukwekkende capaciteiten blijven huidige Text-to-Image (T2I) modellen gevoelig voor het genereren van onveilige en giftige inhoud. Hoewel activeringssturing een veelbelovende interventie tijdens inferentie biedt, merken we op dat lineaire activeringssturing vaak de beeldkwaliteit aantast wanneer toegepast op goedaardige prompts. Om dit afwegingsprobleem aan te pakken, construeren we eerst SafeSteerDataset, een contrastieve dataset met 2300 paren van veilige en onveilige prompts met een hoge cosinusgelijkenis. Gebruikmakend van deze data stellen we Conditioned Activation Transport (CAT) voor, een raamwerk dat een op geometrie gebaseerd conditioneringsmechanisme en niet-lineaire transportafbeeldingen gebruikt. Door transportafbeeldingen zo te conditioneren dat ze alleen binnen onveilige activeringsregio's geactiveerd worden, minimaliseren we interferentie met goedaardige queries. We valideren onze aanpak op twee state-of-the-art architecturen: Z-Image en Infinity. Experimenten tonen aan dat CAT effectief generaliseert over deze backbones, de Attack Success Rate significant verlaagt en tegelijkertijd de beeldkwaliteit behoudt in vergelijking met niet-gestuurde gegenereerde beelden. Waarschuwing: Dit artikel bevat mogelijk aanstootgevende tekst en afbeeldingen.

English

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

Geconditioneerde Activatie Transport voor T2I Veiligheidssturing

Conditioned Activation Transport for T2I Safety Steering

Samenvatting

Support