ProGuard: Auf dem Weg zu einer proaktiven multimodalen Absicherung
ProGuard: Towards Proactive Multimodal Safeguard
December 29, 2025
papers.authors: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI
papers.abstract
Die rasche Entwicklung generativer Modelle hat zu einem kontinuierlichen Auftreten multimodaler Sicherheitsrisiken geführt, wodurch die Grenzen bestehender Abwehrverfahren aufgezeigt werden. Um diesen Herausforderungen zu begegnen, schlagen wir ProGuard vor, eine visuell-sprachliche proaktive Schutzmaßnahme, die out-of-distribution (OOD) Sicherheitsrisiken identifiziert und beschreibt, ohne die bei traditionellen reaktiven Ansätzen erforderlichen Modellanpassungen. Zunächst erstellen wir einen modalitätsausgewogenen Datensatz mit 87.000 Stichproben, die jeweils mit binären Sicherheitslabels und Risikokategorien gemäß einer hierarchischen multimodalen Sicherheitstaxonomie annotiert sind, wodurch Modalbias wirksam gemindert und eine konsistente Moderation über Text-, Bild- und Text-Bild-Eingaben hinweg gewährleistet wird. Auf Basis dieses Datensatzes trainieren wir unser visuell-sprachliches Basismodell ausschließlich durch Reinforcement Learning (RL), um ein effizientes und präzises Reasoning zu erreichen. Um proaktive Sicherheitsszenarien in einer kontrollierten Umgebung zu approximieren, führen wir weiterhin eine OOD-Sicherheitskategorie-Inferenzaufgabe ein und erweitern das RL-Ziel um eine auf einer Synonymdatenbank basierende Ähnlichkeitsbelohnung, die das Modell dazu anregt, prägnante Beschreibungen für unbekannte unsichere Kategorien zu generieren. Experimentelle Ergebnisse zeigen, dass ProGuard bei der binären Sicherheitsklassifizierung eine mit Closed-Source-Großmodellen vergleichbare Leistung erzielt und bestehende Open-Source-Schutzmodelle bei der Kategorisierung unsicherer Inhalte erheblich übertrifft. Besonders bemerkenswert ist, dass ProGuard eine starke proaktive Moderationsfähigkeit aufweist, die OOD-Risikoerkennung um 52,6 % und die OOD-Risikobeschreibung um 64,8 % verbessert.
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.