ProGuard: Op weg naar proactieve multimodale beveiliging
ProGuard: Towards Proactive Multimodal Safeguard
December 29, 2025
Auteurs: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI
Samenvatting
De snelle evolutie van generatieve modellen heeft geleid tot een continue opkomst van multimodale veiligheidsrisico's, waardoor de beperkingen van bestaande verdedigingsmethoden aan het licht komen. Om deze uitdagingen aan te pakken, stellen wij ProGuard voor, een vision-language proactieve beveiliging die out-of-distribution (OOD) veiligheidsrisico's identificeert en beschrijft zonder de modelaanpassingen die traditionele reactieve benaderingen vereisen. Wij construeren eerst een modality-gebalanceerde dataset van 87K samples, elk geannoteerd met zowel binaire veiligheidslabels als risicocategorieën volgens een hiërarchische multimodale veiligheidstaxonomie, waardoor modality bias effectief wordt gereduceerd en consistente moderatie over tekst-, beeld- en tekst-beeldinput wordt gewaarborgd. Op basis van deze dataset trainen wij ons vision-language basismodel uitsluitend via reinforcement learning (RL) om efficiënte en beknopte redenering te bereiken. Om proactieve veiligheidsscenario's in een gecontroleerde setting te benaderen, introduceren wij verder een OOD veiligheidscategorie-inferentietaak en verrijken we het RL-doel met een op een synoniemenbank gebaseerde similariteitsbeloning die het model aanmoedigt om beknopte beschrijvingen te genereren voor onzichtbare onveilige categorieën. Experimentele resultaten tonen aan dat ProGuard een prestatieniveau bereikt dat vergelijkbaar is met closed-source grote modellen voor binaire veiligheidsclassificatie, en bestaande open-source beveiligingsmodellen aanzienlijk overtreft voor de categorisering van onveilige inhoud. Opmerkelijk is dat ProGuard een sterke proactieve moderatiecapaciteit levert, met een verbetering van 52,6% in OOD-risicodetectie en 64,8% in OOD-risicobeschrijving.
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.