Alinhamento de Segurança Personalizado para Modelos de Difusão de Texto para Imagem
Personalized Safety Alignment for Text-to-Image Diffusion Models
August 2, 2025
Autores: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu
cs.AI
Resumo
Os modelos de difusão texto-imagem revolucionaram a geração de conteúdo visual, mas os mecanismos de segurança atuais aplicam padrões uniformes que frequentemente falham em considerar as preferências individuais dos usuários. Esses modelos ignoram os diversos limites de segurança moldados por fatores como idade, saúde mental e crenças pessoais. Para abordar essa questão, propomos o Alinhamento de Segurança Personalizado (PSA), uma estrutura que permite o controle específico do usuário sobre os comportamentos de segurança em modelos generativos. O PSA integra perfis de usuários personalizados no processo de difusão, ajustando o comportamento do modelo para corresponder às preferências de segurança individuais, preservando a qualidade da imagem. Introduzimos um novo conjunto de dados, Sage, que captura as preferências de segurança específicas do usuário e incorpora esses perfis por meio de um mecanismo de atenção cruzada. Experimentos mostram que o PSA supera os métodos existentes na supressão de conteúdo prejudicial e alinha melhor o conteúdo gerado com as restrições do usuário, alcançando pontuações mais altas em Taxa de Vitória e Taxa de Aprovação. Nosso código, dados e modelos estão publicamente disponíveis em https://torpedo2648.github.io/PSAlign/.
English
Text-to-image diffusion models have revolutionized visual content generation,
but current safety mechanisms apply uniform standards that often fail to
account for individual user preferences. These models overlook the diverse
safety boundaries shaped by factors like age, mental health, and personal
beliefs. To address this, we propose Personalized Safety Alignment (PSA), a
framework that allows user-specific control over safety behaviors in generative
models. PSA integrates personalized user profiles into the diffusion process,
adjusting the model's behavior to match individual safety preferences while
preserving image quality. We introduce a new dataset, Sage, which captures
user-specific safety preferences and incorporates these profiles through a
cross-attention mechanism. Experiments show that PSA outperforms existing
methods in harmful content suppression and aligns generated content better with
user constraints, achieving higher Win Rate and Pass Rate scores. Our code,
data, and models are publicly available at
https://torpedo2648.github.io/PSAlign/.