SafeDiffusion-R1: Online-Belohnungssteuerung für sicheres Diffusion-Post-Training

Zusammenfassung

Diffusionsmodelle wurden umfassend untersucht, um unsichere Inhalte zu entfernen, die während des Vortrainings erlernt wurden. Bisherige Methoden erfordern teure überwachte Daten, entweder unsichere Texte gepaart mit Ground-Truth-Bildern oder negative/positive Bildpaare, was sie für eine Skalierung unpraktisch macht. Darüber hinaus leiden Offline-Verstärkungslernen und überwachte Feinabstimmungsansätze, die synthetische Daten offline generieren, unter katastrophalem Vergessen, was die Generierungsqualität verschlechtert. Wir stellen ein neuartiges Online-Verstärkungslern-Framework vor, das sowohl Datenknappheit als auch Modellverschlechterung durch Nachtraining mit Group Relative Policy Optimization (GRPO) auf negativen und positiven Textprompts adressiert. Um die Notwendigkeit einer Feinabstimmung spezialisierter sicherer/unsicherer Belohnungsmodelle zu eliminieren, führen wir einen Steuerungsbelohnungsmechanismus ein, der eine inhärente Eigenschaft von CLIP-Einbettungen nutzt: die Steuerung von Textrepräsentationen in Richtung positiver Sicherheitsrichtungen und weg von negativen im Einbettungsraum. Unser Online-Policy-Ansatz ermöglicht es dem Modell, aus verschiedenen Prompts, einschließlich explizit unsicherer Inhalte, zu lernen, ohne katastrophales Vergessen. Umfangreiche Experimente zeigen, dass unsere Methode unangemessene Inhalte auf 18,07 % reduziert (vs. 48,9 % für SD v1.4) und Nackterkennungen auf 15 (vs. 646 im Ausgangswert), während die kompositorische Generierungsqualität von 42,08 % auf 47,83 % bei GenEval verbessert wird. Bemerkenswerterweise verallgemeinern sich diese Sicherheitsgewinne auf unsichere Out-of-Domain-Prompts in sieben Schadenskategorien und erzielen modernste Leistung ohne überwachte gepaarte Daten oder Belohnungsabstimmung. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.

English

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a steering reward mechanism that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.