GuardReasoner-VL: 강화된 추론을 통한 시각-언어 모델 보호
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
저자: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
초록
VLMs의 안전성을 강화하기 위해, 본 논문은 GuardReasoner-VL이라는 새로운 추론 기반 VLM 가드 모델을 소개한다. 핵심 아이디어는 온라인 강화 학습(RL)을 통해 가드 모델이 검열 결정을 내리기 전에 신중하게 추론하도록 유도하는 것이다. 먼저, 텍스트, 이미지, 텍스트-이미지 입력을 아우르는 123K 샘플과 631K 추론 단계로 구성된 GuardReasoner-VLTrain 추론 코퍼스를 구축한다. 이를 기반으로, SFT(Supervised Fine-Tuning)를 통해 모델의 추론 능력을 콜드 스타트한다. 또한, 온라인 RL을 통해 검열과 관련된 추론을 더욱 강화한다. 구체적으로, 샘플의 다양성과 난이도를 높이기 위해, 제안된 안전 인식 데이터 연결을 통한 데이터 증강 후 거부 샘플링을 수행한다. 또한, 초기 단계에서는 탐색을 장려하고 후기 단계에서는 활용을 촉진하기 위해 동적 클리핑 파라미터를 사용한다. 성능과 토큰 효율성의 균형을 맞추기 위해, 정확도, 형식, 토큰 비용을 통합한 길이 인식 안전 보상을 설계한다. 광범위한 실험을 통해 우리 모델의 우수성을 입증한다. 특히, 평균 F1 점수에서 2위 모델을 19.27% 앞섰다. GuardReasoner-VL의 데이터, 코드, 모델(3B/7B)을 https://github.com/yueliu1999/GuardReasoner-VL/에서 공개한다.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/Summary
AI-Generated Summary