Personalisierte Sicherheitsausrichtung für Text-zu-Bild-Diffusionsmodelle
Personalized Safety Alignment for Text-to-Image Diffusion Models
August 2, 2025
papers.authors: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu
cs.AI
papers.abstract
Text-to-Image-Diffusionsmodelle haben die Erzeugung visueller Inhalte revolutioniert, doch die derzeitigen Sicherheitsmechanismen wenden einheitliche Standards an, die oft die individuellen Benutzerpräferenzen nicht berücksichtigen. Diese Modelle übersehen die vielfältigen Sicherheitsgrenzen, die durch Faktoren wie Alter, psychische Gesundheit und persönliche Überzeugungen geprägt werden. Um dies zu adressieren, schlagen wir Personalized Safety Alignment (PSA) vor, ein Framework, das eine benutzerspezifische Kontrolle über das Sicherheitsverhalten in generativen Modellen ermöglicht. PSA integriert personalisierte Benutzerprofile in den Diffusionsprozess und passt das Verhalten des Modells an individuelle Sicherheitspräferenzen an, während die Bildqualität erhalten bleibt. Wir stellen einen neuen Datensatz, Sage, vor, der benutzerspezifische Sicherheitspräferenzen erfasst und diese Profile durch einen Cross-Attention-Mechanismus einbindet. Experimente zeigen, dass PSA bestehende Methoden in der Unterdrückung schädlicher Inhalte übertrifft und generierte Inhalte besser mit Benutzerbeschränkungen in Einklang bringt, wobei höhere Win Rate- und Pass Rate-Werte erzielt werden. Unser Code, Daten und Modelle sind öffentlich verfügbar unter https://torpedo2648.github.io/PSAlign/.
English
Text-to-image diffusion models have revolutionized visual content generation,
but current safety mechanisms apply uniform standards that often fail to
account for individual user preferences. These models overlook the diverse
safety boundaries shaped by factors like age, mental health, and personal
beliefs. To address this, we propose Personalized Safety Alignment (PSA), a
framework that allows user-specific control over safety behaviors in generative
models. PSA integrates personalized user profiles into the diffusion process,
adjusting the model's behavior to match individual safety preferences while
preserving image quality. We introduce a new dataset, Sage, which captures
user-specific safety preferences and incorporates these profiles through a
cross-attention mechanism. Experiments show that PSA outperforms existing
methods in harmful content suppression and aligns generated content better with
user constraints, achieving higher Win Rate and Pass Rate scores. Our code,
data, and models are publicly available at
https://torpedo2648.github.io/PSAlign/.