ProGuard : Vers une sauvegarde multimodale proactive
ProGuard: Towards Proactive Multimodal Safeguard
December 29, 2025
papers.authors: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI
papers.abstract
L'évolution rapide des modèles génératifs a entraîné l'émergence continue de risques de sécurité multimodaux, exposant les limites des méthodes de défense existantes. Pour relever ces défis, nous proposons ProGuard, un garde-proactif vision-langage qui identifie et décrit les risques de sécurité hors distribution (OOD) sans nécessiter les ajustements de modèle requis par les approches réactives traditionnelles. Nous construisons d'abord un jeu de données équilibré de 87 000 échantillons, chacun annoté avec des étiquettes de sécurité binaires et des catégories de risque selon une taxonomie de sécurité multimodale hiérarchique, atténuant efficacement le biais de modalité et garantissant une modération cohérente pour les entrées texte, image et texte-image. Sur la base de ce jeu de données, nous entraînons notre modèle de base vision-langage uniquement par apprentissage par renforcement (RL) pour obtenir un raisonnement efficace et concis. Pour approximer les scénarios de sécurité proactive dans un cadre contrôlé, nous introduisons en outre une tâche d'inférence de catégorie de sécurité OOD et enrichissons l'objectif RL par une récompense de similarité basée sur une banque de synonymes qui encourage le modèle à générer des descriptions concises pour des catégories non sécurisées non vues. Les résultats expérimentaux montrent que ProGuard atteint des performances comparables aux grands modèles propriétaires pour la classification binaire de sécurité, et surpasse substantiellement les modèles gardes open-source existants pour la catégorisation du contenu non sécurisé. Plus notablement, ProGuard démontre une forte capacité de modération proactive, améliorant la détection des risques OOD de 52,6 % et la description des risques OOD de 64,8 %.
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.