SafeDiffusion-R1: Онлайн-управление вознаграждениями для безопасного пост-обучения диффузионных моделей

Аннотация

Диффузионные модели широко изучаются для удаления небезопасного контента, усвоенного в ходе предварительного обучения. Существующие методы требуют дорогостоящих размеченных данных — либо пар «небезопасный текст — безопасное изображение», либо пар негативных/позитивных изображений, что делает их непрактичными для масштабирования. Кроме того, подходы офлайн-обучения с подкреплением и контролируемой донастройки, генерирующие синтетические данные в офлайн-режиме, страдают от катастрофического забывания, ухудшая качество генерации. Мы предлагаем новую онлайн-структуру обучения с подкреплением, которая решает как проблему нехватки данных, так и деградации модели путем последующего обучения с групповой оптимизацией относительной политики (GRPO) как на негативных, так и на позитивных текстовых подсказках. Чтобы исключить необходимость тонкой настройки специализированных моделей вознаграждения за безопасность/небезопасность, мы вводим механизм управления вознаграждением, использующий неотъемлемое свойство вложений CLIP: направление текстовых представлений в сторону позитивных направлений безопасности и от негативных — в пространстве вложений. Наш онлайн-подход к политике позволяет модели учиться на разнообразных подсказках, включая явный небезопасный контент, без катастрофического забывания. Обширные эксперименты показывают, что наш метод сокращает долю нежелательного контента до 18,07% (по сравнению с 48,9% для SD v1.4) и количество обнаружений наготы до 15 (по сравнению с 646 в базовом варианте), одновременно улучшая качество композиционной генерации с 42,08% до 47,83% на GenEval. Примечательно, что эти улучшения безопасности обобщаются на внедоменные небезопасные подсказки по семи категориям вреда, достигая передового уровня без использования размеченных парных данных или настройки вознаграждения. GitHub: https://github.com/MAXNORM8650/SafeDiffusion-R1.

English

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a steering reward mechanism that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.