ChatPaper.aiChatPaper

Персонализированное согласование безопасности для моделей диффузии текста в изображения

Personalized Safety Alignment for Text-to-Image Diffusion Models

August 2, 2025
Авторы: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu
cs.AI

Аннотация

Модели диффузии для генерации изображений из текста произвели революцию в создании визуального контента, однако существующие механизмы безопасности применяют универсальные стандарты, которые часто не учитывают индивидуальные предпочтения пользователей. Эти модели игнорируют разнообразные границы безопасности, формируемые такими факторами, как возраст, психическое здоровье и личные убеждения. Для решения этой проблемы мы предлагаем персонализированное согласование безопасности (Personalized Safety Alignment, PSA) — фреймворк, который позволяет пользователям контролировать поведение моделей генерации в соответствии с их индивидуальными предпочтениями. PSA интегрирует персонализированные профили пользователей в процесс диффузии, адаптируя поведение модели к индивидуальным предпочтениям безопасности, сохраняя при этом качество изображений. Мы представляем новый набор данных Sage, который фиксирует индивидуальные предпочтения пользователей в области безопасности и включает эти профили через механизм кросс-внимания. Эксперименты показывают, что PSA превосходит существующие методы в подавлении вредоносного контента и лучше согласует генерируемый контент с ограничениями пользователей, достигая более высоких показателей Win Rate и Pass Rate. Наш код, данные и модели доступны по адресу https://torpedo2648.github.io/PSAlign/.
English
Text-to-image diffusion models have revolutionized visual content generation, but current safety mechanisms apply uniform standards that often fail to account for individual user preferences. These models overlook the diverse safety boundaries shaped by factors like age, mental health, and personal beliefs. To address this, we propose Personalized Safety Alignment (PSA), a framework that allows user-specific control over safety behaviors in generative models. PSA integrates personalized user profiles into the diffusion process, adjusting the model's behavior to match individual safety preferences while preserving image quality. We introduce a new dataset, Sage, which captures user-specific safety preferences and incorporates these profiles through a cross-attention mechanism. Experiments show that PSA outperforms existing methods in harmful content suppression and aligns generated content better with user constraints, achieving higher Win Rate and Pass Rate scores. Our code, data, and models are publicly available at https://torpedo2648.github.io/PSAlign/.
PDF82August 5, 2025