SafeDiffusion-R1: Online beloningssturing voor veilige diffusie post-training

Samenvatting

Diffusiemodellen worden veelvuldig bestudeerd voor het verwijderen van ongewenste inhoud die tijdens het vooraf trainen is aangeleerd. Bestaande methoden vereisen dure gesuperviseerde data, hetzij ongewenste-tekst gekoppeld aan veilige-afbeelding grondwaarheid, hetzij negatieve/positieve beeldparen, wat ze onpraktisch maakt om op te schalen. Bovendien lijden offline reinforcement learning en gesuperviseerde fine-tuning methoden die synthetische data offline genereren aan catastrofaal vergeten, wat de generatiekwaliteit aantast. Wij stellen een nieuw online reinforcement learning raamwerk voor dat zowel dataschaarste als modeldegradatie aanpakt door middel van post-training met Group Relative Policy Optimization (GRPO) op zowel negatieve als positieve tekstprompts. Om de noodzaak voor het fine-tunen van gespecialiseerde veilige/ongewenste beloningsmodellen te elimineren, introduceren we een sturend beloningsmechanisme dat gebruikmaakt van een inherente eigenschap van CLIP-embeddings: het sturen van tekstrepresentaties in de richting van positieve veiligheidsrichtingen en weg van negatieve richtingen in de embeddingruimte. Onze online-policy aanpak stelt het model in staat om te leren van diverse prompts, inclusief expliciete ongewenste inhoud, zonder catastrofaal vergeten. Uitgebreide experimenten tonen aan dat onze methode ongepaste inhoud reduceert tot 18,07% (vs. 48,9% voor SD v1.4) en naaktdetecties tot 15 (vs. 646 baseline), terwijl de compositionele generatiekwaliteit verbetert van 42,08% naar 47,83% op GenEval. Opmerkelijk is dat deze veiligheidsvoordelen generaliseren naar out-of-domain ongewenste prompts over zeven schadecategorieën, waarmee state-of-the-art prestaties worden behaald zonder gesuperviseerde gepaarde data of beloningsafstemming. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.

English

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a steering reward mechanism that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.