SafeDiffusion-R1 : Guidage en ligne par récompense pour un post-entraînement sécurisé de diffusion
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training
May 18, 2026
Auteurs: Komal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar
cs.AI
Résumé
Les modèles de diffusion ont été largement étudiés pour supprimer les contenus indésirables appris lors du pré-entraînement. Les méthodes existantes nécessitent des données supervisées coûteuses, que ce soit des paires de texte non sûr avec une image sûre de référence ou des paires d'images négatives/positives, ce qui les rend difficilement passibles à l'échelle. De plus, les approches d'apprentissage par renforcement hors ligne et de fine-tuning supervisé qui génèrent des données synthétiques hors ligne souffrent d'oubli catastrophique, dégradant la qualité de génération. Nous proposons un nouveau cadre d'apprentissage par renforcement en ligne qui résout à la fois la pénurie de données et la dégradation du modèle grâce à un post-entraînement avec l'Optimisation Relative des Politiques par Groupe (GRPO) sur des prompts textuels à la fois négatifs et positifs. Pour éliminer le besoin de fine-tuner des modèles de récompense spécialisés sûrs/dangereux, nous introduisons un mécanisme de récompense d'orientation qui exploite une propriété inhérente des plongements CLIP : orienter les représentations textuelles vers des directions de sécurité positives et les éloigner des directions négatives dans l'espace de plongement. Notre approche en ligne permet au modèle d'apprendre à partir de prompts divers, y compris des contenus explicitement non sûrs, sans oubli catastrophique. Des expériences approfondies montrent que notre méthode réduit les contenus inappropriés à 18,07 % (contre 48,9 % pour SD v1.4) et les détections de nudité à 15 (contre 646 pour la référence) tout en améliorant la qualité de génération compositionnelle de 42,08 % à 47,83 % sur GenEval. Remarquablement, ces gains de sécurité se généralisent à des prompts non sûrs hors domaine dans sept catégories de préjudice, atteignant des performances de pointe sans données supervisées appariées ni réglage de récompense. GitHub : https://github.com/MAXNORM8650/SafeDiffusion-R1.
English
Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a steering reward mechanism that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.