SafeDiffusion-R1 : Guidage en ligne par récompense pour un post-entraînement sécurisé de diffusion

Résumé

Les modèles de diffusion ont été largement étudiés pour supprimer les contenus indésirables appris lors du pré-entraînement. Les méthodes existantes nécessitent des données supervisées coûteuses, que ce soit des paires de texte non sûr avec une image sûre de référence ou des paires d'images négatives/positives, ce qui les rend difficilement passibles à l'échelle. De plus, les approches d'apprentissage par renforcement hors ligne et de fine-tuning supervisé qui génèrent des données synthétiques hors ligne souffrent d'oubli catastrophique, dégradant la qualité de génération. Nous proposons un nouveau cadre d'apprentissage par renforcement en ligne qui résout à la fois la pénurie de données et la dégradation du modèle grâce à un post-entraînement avec l'Optimisation Relative des Politiques par Groupe (GRPO) sur des prompts textuels à la fois négatifs et positifs. Pour éliminer le besoin de fine-tuner des modèles de récompense spécialisés sûrs/dangereux, nous introduisons un mécanisme de récompense d'orientation qui exploite une propriété inhérente des plongements CLIP : orienter les représentations textuelles vers des directions de sécurité positives et les éloigner des directions négatives dans l'espace de plongement. Notre approche en ligne permet au modèle d'apprendre à partir de prompts divers, y compris des contenus explicitement non sûrs, sans oubli catastrophique. Des expériences approfondies montrent que notre méthode réduit les contenus inappropriés à 18,07 % (contre 48,9 % pour SD v1.4) et les détections de nudité à 15 (contre 646 pour la référence) tout en améliorant la qualité de génération compositionnelle de 42,08 % à 47,83 % sur GenEval. Remarquablement, ces gains de sécurité se généralisent à des prompts non sûrs hors domaine dans sept catégories de préjudice, atteignant des performances de pointe sans données supervisées appariées ni réglage de récompense. GitHub : https://github.com/MAXNORM8650/SafeDiffusion-R1.

English

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a steering reward mechanism that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.