SafeDiffusion-R1: Online-Belohnungssteuerung für sicheres Diffusion-Post-Training
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training
May 18, 2026
Autoren: Komal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar
cs.AI
Zusammenfassung
Diffusionsmodelle wurden umfassend untersucht, um unsichere Inhalte zu entfernen, die während des Vortrainings erlernt wurden. Bisherige Methoden erfordern teure überwachte Daten, entweder unsichere Texte gepaart mit Ground-Truth-Bildern oder negative/positive Bildpaare, was sie für eine Skalierung unpraktisch macht. Darüber hinaus leiden Offline-Verstärkungslernen und überwachte Feinabstimmungsansätze, die synthetische Daten offline generieren, unter katastrophalem Vergessen, was die Generierungsqualität verschlechtert. Wir stellen ein neuartiges Online-Verstärkungslern-Framework vor, das sowohl Datenknappheit als auch Modellverschlechterung durch Nachtraining mit Group Relative Policy Optimization (GRPO) auf negativen und positiven Textprompts adressiert. Um die Notwendigkeit einer Feinabstimmung spezialisierter sicherer/unsicherer Belohnungsmodelle zu eliminieren, führen wir einen Steuerungsbelohnungsmechanismus ein, der eine inhärente Eigenschaft von CLIP-Einbettungen nutzt: die Steuerung von Textrepräsentationen in Richtung positiver Sicherheitsrichtungen und weg von negativen im Einbettungsraum. Unser Online-Policy-Ansatz ermöglicht es dem Modell, aus verschiedenen Prompts, einschließlich explizit unsicherer Inhalte, zu lernen, ohne katastrophales Vergessen. Umfangreiche Experimente zeigen, dass unsere Methode unangemessene Inhalte auf 18,07 % reduziert (vs. 48,9 % für SD v1.4) und Nackterkennungen auf 15 (vs. 646 im Ausgangswert), während die kompositorische Generierungsqualität von 42,08 % auf 47,83 % bei GenEval verbessert wird. Bemerkenswerterweise verallgemeinern sich diese Sicherheitsgewinne auf unsichere Out-of-Domain-Prompts in sieben Schadenskategorien und erzielen modernste Leistung ohne überwachte gepaarte Daten oder Belohnungsabstimmung. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.
English
Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a steering reward mechanism that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.