Alineación de Seguridad Personalizada para Modelos de Difusión de Texto a Imagen
Personalized Safety Alignment for Text-to-Image Diffusion Models
August 2, 2025
Autores: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu
cs.AI
Resumen
Los modelos de difusión de texto a imagen han revolucionado la generación de contenido visual, pero los mecanismos de seguridad actuales aplican estándares uniformes que a menudo no tienen en cuenta las preferencias individuales de los usuarios. Estos modelos pasan por alto los diversos límites de seguridad moldeados por factores como la edad, la salud mental y las creencias personales. Para abordar esto, proponemos Alineación de Seguridad Personalizada (PSA, por sus siglas en inglés), un marco que permite un control específico del usuario sobre los comportamientos de seguridad en los modelos generativos. PSA integra perfiles de usuario personalizados en el proceso de difusión, ajustando el comportamiento del modelo para que coincida con las preferencias de seguridad individuales mientras preserva la calidad de la imagen. Introducimos un nuevo conjunto de datos, Sage, que captura las preferencias de seguridad específicas del usuario e incorpora estos perfiles a través de un mecanismo de atención cruzada. Los experimentos muestran que PSA supera a los métodos existentes en la supresión de contenido dañino y alinea mejor el contenido generado con las restricciones del usuario, logrando puntuaciones más altas en Tasa de Éxito y Tasa de Aprobación. Nuestro código, datos y modelos están disponibles públicamente en https://torpedo2648.github.io/PSAlign/.
English
Text-to-image diffusion models have revolutionized visual content generation,
but current safety mechanisms apply uniform standards that often fail to
account for individual user preferences. These models overlook the diverse
safety boundaries shaped by factors like age, mental health, and personal
beliefs. To address this, we propose Personalized Safety Alignment (PSA), a
framework that allows user-specific control over safety behaviors in generative
models. PSA integrates personalized user profiles into the diffusion process,
adjusting the model's behavior to match individual safety preferences while
preserving image quality. We introduce a new dataset, Sage, which captures
user-specific safety preferences and incorporates these profiles through a
cross-attention mechanism. Experiments show that PSA outperforms existing
methods in harmful content suppression and aligns generated content better with
user constraints, achieving higher Win Rate and Pass Rate scores. Our code,
data, and models are publicly available at
https://torpedo2648.github.io/PSAlign/.