ChatPaper.aiChatPaper

SafeGRPO: 규칙 기반 정책 최적화를 통한 자기 보상 다중모달 안전성 정렬

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

November 17, 2025
저자: Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye
cs.AI

초록

다중 모달 대규모 언어 모델(MLLMs)은 인상적인 추론 및 지시 수행 능력을 보여주었지만, 확장된 모달리티 공간은 복잡한 텍스트-이미지 상호작용에서 발생하는 새로운 구성적 안전 위험을 야기합니다. 이러한 교차 모달 결합은 개별 입력이 무해한 경우에도 안전하지 않은 의미를 생성할 수 있으며, 이는 현재 MLLMs의 취약한 안전 인식을 드러냅니다. 최근 연구들은 모델이 잠재적 위험에 대해 추론하도록 유도하여 안전성을 강화하고 있지만, 제어되지 않은 추론 흔적은 정렬을 훼손할 수 있습니다. 그룹 상대 정책 최적화(GRPO)는 인간의 감독 없이 자기 보상 정제를 제공하지만, 추론 안전성에 대한 검증 가능한 신호가 부족합니다. 이를 해결하기 위해 우리는 규칙 기반 보상 구성을 GRPO에 통합하여 추론 안전성의 해석 가능하고 검증 가능한 최적화를 가능하게 하는 자기 보상 다중 모달 안전 정렬 프레임워크인 SafeGRPO를 제안합니다. 명시적인 시각, 텍스트 및 결합 안전 태그가 포함된 구축된 SafeTag-VL-3K 데이터셋을 기반으로 하는 SafeGRPO는 단계별 안전 사고를 수행하여 구조화된 추론과 행동 정렬을 강제하며, 일반 능력을 희생하지 않고 다양한 벤치마크에서 다중 모달 안전 인식, 구성적 강건성 및 추론 안정성을 크게 향상시킵니다.
English
Multimodal large language models (MLLMs) have demonstrated impressive reasoning and instruction-following capabilities, yet their expanded modality space introduces new compositional safety risks that emerge from complex text-image interactions. Such cross-modal couplings can produce unsafe semantics even when individual inputs are benign, exposing the fragile safety awareness of current MLLMs. While recent works enhance safety by guiding models to reason about potential risks, unregulated reasoning traces may compromise alignment; although Group Relative Policy Optimization (GRPO) offers self-rewarded refinement without human supervision, it lacks verifiable signals for reasoning safety. To address this, we propose SafeGRPO a self-rewarded multimodal safety alignment framework that integrates rule-governed reward construction into GRPO, enabling interpretable and verifiable optimization of reasoning safety. Built upon the constructed SafeTag-VL-3K dataset with explicit visual, textual, and combined safety tags, SafeGRPO performs step-guided safety thinking to enforce structured reasoning and behavior alignment, substantially improving multimodal safety awareness, compositional robustness, and reasoning stability across diverse benchmarks without sacrificing general capabilities.
PDF32December 1, 2025