ProGuard: Verso una Salvaguardia Multimodale Proattiva

Abstract

La rapida evoluzione dei modelli generativi ha portato a un'emergenza continua di rischi multimodali per la sicurezza, evidenziando i limiti dei metodi di difesa esistenti. Per affrontare queste sfide, proponiamo ProGuard, un sistema di protezione proattivo visione-linguaggio che identifica e descrive i rischi di sicurezza out-of-distribution (OOD) senza richiedere gli aggiustamenti del modello necessari agli approcci reattivi tradizionali. Inizialmente costruiamo un dataset bilanciato per modalità di 87.000 campioni, ciascuno annotato con etichette di sicurezza binarie e categorie di rischio secondo una tassonomia multimodale gerarchica, mitigando efficacemente il bias modale e garantendo una moderazione coerente per input testuali, visivi e testo-immagine. Basandoci su questo dataset, addestriamo il nostro modello base visione-linguaggio esclusivamente attraverso reinforcement learning (RL) per ottenere un ragionamento efficiente e conciso. Per approssimare scenari di sicurezza proattivi in ambiente controllato, introduciamo ulteriormente un task di inferenza per categorie di sicurezza OOD e arricchiamo l'obiettivo RL con una ricompensa di similarità basata su banche di sinonimi che incentiva il modello a generare descrizioni concise per categorie non sicure non viste. I risultati sperimentali dimostrano che ProGuard raggiunge prestazioni paragonabili a modelli large closed-source nella classificazione binaria della sicurezza, superando sostanzialmente i modelli di protezione open-source esistenti nella categorizzazione di contenuti non sicuri. Notevolmente, ProGuard dimostra una forte capacità di moderazione proattiva, migliorando il rilevamento dei rischi OOD del 52.6% e la descrizione dei rischi OOD del 64.8%.

English

The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.

ProGuard: Verso una Salvaguardia Multimodale Proattiva

ProGuard: Towards Proactive Multimodal Safeguard

Abstract

Support