ProGuard: 能動的マルチモーダル保護へのアプローチ
ProGuard: Towards Proactive Multimodal Safeguard
December 29, 2025
著者: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI
要旨
ジェネレーティブモデルの急速な進化に伴い、マルチモーダルな安全性リスクが継続的に顕在化しており、既存の防御手法の限界が露呈している。これらの課題に対処するため、我々はProGuardを提案する。これは視覚言語プロアクティブガードであり、従来のリアクティブアプローチで必要とされたモデル調整を必要とせず、分布外(OOD)安全性リスクを識別し記述する。まず、87Kサンプルからなるモダリティ均衡データセットを構築し、各サンプルに二値安全性ラベルと階層型マルチモーダル安全性分類体系に基づくリスクカテゴリを付与することで、モダリティバイアスを効果的に軽減し、テキスト、画像、テキスト画像入力にわたる一貫したモデレーションを保証する。このデータセットに基づき、強化学習(RL)のみを通じて視覚言語基盤モデルを訓練し、効率的かつ簡潔な推論を実現する。制御環境下でプロアクティブ安全性シナリオを近似するため、OOD安全性カテゴリ推論タスクを追加導入し、同義語バンクベースの類似性報酬をRL目的関数に付加することで、未見の不安全カテゴリに対する簡潔な記述生成を促進する。実験結果では、ProGuardが二値安全性分類においてクローズドソース大規模モデルに匹敵する性能を達成し、不安全コンテンツ分類では既存のオープンソースガードモデルを大幅に上回る。特に顕著なのは、ProGuardが強力なプロアクティブモデレーション能力を発揮し、OODリスク検出を52.6%、OODリスク記述を64.8%改善した点である。
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.