Gepersonaliseerde Veiligheidsafstemming voor Tekst-naar-Beeld Diffusiemodellen
Personalized Safety Alignment for Text-to-Image Diffusion Models
August 2, 2025
Auteurs: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu
cs.AI
Samenvatting
Text-to-image diffusiemodellen hebben een revolutie teweeggebracht in visuele contentgeneratie, maar de huidige veiligheidsmechanismen hanteren uniforme standaarden die vaak geen rekening houden met individuele gebruikersvoorkeuren. Deze modellen negeren de diverse veiligheidsgrenzen die worden gevormd door factoren zoals leeftijd, mentale gezondheid en persoonlijke overtuigingen. Om dit aan te pakken, stellen we Personalized Safety Alignment (PSA) voor, een raamwerk dat gebruikerspecifieke controle over veiligheidsgedrag in generatieve modellen mogelijk maakt. PSA integreert gepersonaliseerde gebruikersprofielen in het diffusieproces, waarbij het gedrag van het model wordt aangepast om aan te sluiten bij individuele veiligheidsvoorkeuren, terwijl de beeldkwaliteit behouden blijft. We introduceren een nieuwe dataset, Sage, die gebruikerspecifieke veiligheidsvoorkeuren vastlegt en deze profielen incorporeert via een cross-attention-mechanisme. Experimenten tonen aan dat PSA bestaande methoden overtreft in het onderdrukken van schadelijke content en gegenereerde content beter afstemt op gebruikersbeperkingen, met hogere Win Rate- en Pass Rate-scores. Onze code, data en modellen zijn publiekelijk beschikbaar op https://torpedo2648.github.io/PSAlign/.
English
Text-to-image diffusion models have revolutionized visual content generation,
but current safety mechanisms apply uniform standards that often fail to
account for individual user preferences. These models overlook the diverse
safety boundaries shaped by factors like age, mental health, and personal
beliefs. To address this, we propose Personalized Safety Alignment (PSA), a
framework that allows user-specific control over safety behaviors in generative
models. PSA integrates personalized user profiles into the diffusion process,
adjusting the model's behavior to match individual safety preferences while
preserving image quality. We introduce a new dataset, Sage, which captures
user-specific safety preferences and incorporates these profiles through a
cross-attention mechanism. Experiments show that PSA outperforms existing
methods in harmful content suppression and aligns generated content better with
user constraints, achieving higher Win Rate and Pass Rate scores. Our code,
data, and models are publicly available at
https://torpedo2648.github.io/PSAlign/.