Allineamento Sicuro Personalizzato per Modelli di Diffusione da Testo a Immagine

Abstract

I modelli di diffusione text-to-image hanno rivoluzionato la generazione di contenuti visivi, ma gli attuali meccanismi di sicurezza applicano standard uniformi che spesso non tengono conto delle preferenze individuali degli utenti. Questi modelli trascurano i diversi confini di sicurezza influenzati da fattori come età, salute mentale e credenze personali. Per affrontare questo problema, proponiamo il Personalized Safety Alignment (PSA), un framework che consente un controllo specifico dell'utente sui comportamenti di sicurezza nei modelli generativi. PSA integra profili utente personalizzati nel processo di diffusione, adattando il comportamento del modello per corrispondere alle preferenze di sicurezza individuali preservando la qualità dell'immagine. Introduciamo un nuovo dataset, Sage, che cattura le preferenze di sicurezza specifiche dell'utente e incorpora questi profili attraverso un meccanismo di cross-attention. Gli esperimenti dimostrano che PSA supera i metodi esistenti nella soppressione di contenuti dannosi e allinea meglio i contenuti generati con i vincoli dell'utente, ottenendo punteggi più alti in Win Rate e Pass Rate. Il nostro codice, dati e modelli sono disponibili pubblicamente all'indirizzo https://torpedo2648.github.io/PSAlign/.

English

Text-to-image diffusion models have revolutionized visual content generation, but current safety mechanisms apply uniform standards that often fail to account for individual user preferences. These models overlook the diverse safety boundaries shaped by factors like age, mental health, and personal beliefs. To address this, we propose Personalized Safety Alignment (PSA), a framework that allows user-specific control over safety behaviors in generative models. PSA integrates personalized user profiles into the diffusion process, adjusting the model's behavior to match individual safety preferences while preserving image quality. We introduce a new dataset, Sage, which captures user-specific safety preferences and incorporates these profiles through a cross-attention mechanism. Experiments show that PSA outperforms existing methods in harmful content suppression and aligns generated content better with user constraints, achieving higher Win Rate and Pass Rate scores. Our code, data, and models are publicly available at https://torpedo2648.github.io/PSAlign/.

Allineamento Sicuro Personalizzato per Modelli di Diffusione da Testo a Immagine

Personalized Safety Alignment for Text-to-Image Diffusion Models

Abstract

Support