ChatPaper.aiChatPaper

ProGuard: 사전 대응형 멀티모달 안전 장치를 향하여

ProGuard: Towards Proactive Multimodal Safeguard

December 29, 2025
저자: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI

초록

생성 모델의 급속한 발전은 다중모달 안전 위험의 지속적인 출현을 가져왔으며, 이는 기존 방어 방법의 한계를 드러내고 있습니다. 이러한 과제를 해결하기 위해 우리는 기존 반응형 접근법에서 요구되는 모델 조정 없이 분포 외(out-of-distribution, OOD) 안전 위험을 식별하고 설명하는 시각-언어 능동형 가드인 ProGuard를 제안합니다. 먼저, 이진 안전 라벨과 계층적 다중모달 안전 분류 체계 하의 위험 범주로 주석이 달린 87K 샘플의 모달리티 균형 데이터셋을 구축하여 모달리티 편향을 효과적으로 완화하고 텍스트, 이미지, 텍스트-이미지 입력 간 일관된 조정을 보장합니다. 이 데이터셋을 기반으로 강화 학습(RL)만을 통해 시각-언어 기반 모델을 훈련하여 효율적이고 간결한 추론을 달성합니다. 통제된 환경에서 능동적 안전 시나리오를 근사화하기 위해 OOD 안전 범주 추론 작업을 추가로 도입하고, 모델이 보지 못한 안전하지 않은 범주에 대해 간결한 설명을 생성하도록 유도하는 동의어 기반 유사도 보상으로 RL 목적 함수를 보강합니다. 실험 결과, ProGuard는 이진 안전 분류에서 폐쇄형 대규모 모델에 버금가는 성능을 달성했으며, 안전하지 않은 콘텐츠 범주화에서는 기존 오픈소스 가드 모델을 크게 능가합니다. 가장 주목할 만하게도 ProGuard는 강력한 능동적 조정 능력을 보여주며, OOD 위험 탐지에서 52.6%, OOD 위험 설명에서 64.8%의 성능 향상을 이루었습니다.
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.
PDF42December 31, 2025