Alignement de sécurité personnalisé pour les modèles de diffusion texte-image
Personalized Safety Alignment for Text-to-Image Diffusion Models
August 2, 2025
papers.authors: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu
cs.AI
papers.abstract
Les modèles de diffusion texte-image ont révolutionné la génération de contenu visuel, mais les mécanismes de sécurité actuels appliquent des normes uniformes qui ne tiennent souvent pas compte des préférences individuelles des utilisateurs. Ces modèles négligent les limites de sécurité variées influencées par des facteurs tels que l'âge, la santé mentale et les convictions personnelles. Pour remédier à cela, nous proposons l'Alignement de Sécurité Personnalisé (Personalized Safety Alignment, PSA), un cadre permettant un contrôle spécifique à l'utilisateur sur les comportements de sécurité dans les modèles génératifs. PSA intègre des profils utilisateurs personnalisés dans le processus de diffusion, ajustant le comportement du modèle pour correspondre aux préférences de sécurité individuelles tout en préservant la qualité de l'image. Nous introduisons un nouveau jeu de données, Sage, qui capture les préférences de sécurité spécifiques aux utilisateurs et incorpore ces profils via un mécanisme d'attention croisée. Les expériences montrent que PSA surpasse les méthodes existantes en matière de suppression de contenu nuisible et aligne mieux le contenu généré avec les contraintes des utilisateurs, obtenant des scores plus élevés en termes de Taux de Victoire (Win Rate) et de Taux de Réussite (Pass Rate). Notre code, données et modèles sont disponibles publiquement à l'adresse https://torpedo2648.github.io/PSAlign/.
English
Text-to-image diffusion models have revolutionized visual content generation,
but current safety mechanisms apply uniform standards that often fail to
account for individual user preferences. These models overlook the diverse
safety boundaries shaped by factors like age, mental health, and personal
beliefs. To address this, we propose Personalized Safety Alignment (PSA), a
framework that allows user-specific control over safety behaviors in generative
models. PSA integrates personalized user profiles into the diffusion process,
adjusting the model's behavior to match individual safety preferences while
preserving image quality. We introduce a new dataset, Sage, which captures
user-specific safety preferences and incorporates these profiles through a
cross-attention mechanism. Experiments show that PSA outperforms existing
methods in harmful content suppression and aligns generated content better with
user constraints, achieving higher Win Rate and Pass Rate scores. Our code,
data, and models are publicly available at
https://torpedo2648.github.io/PSAlign/.