ChatPaper.aiChatPaper

GuardReasoner-VL: Bescherming van VLMs via Versterkt Redeneren

GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16, 2025
Auteurs: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI

Samenvatting

Om de veiligheid van VLMs te verbeteren, introduceert dit artikel een nieuw redeneergebaseerd VLM-beveiligingsmodel genaamd GuardReasoner-VL. De kernidee is om het beveiligingsmodel aan te moedigen om bewust te redeneren voordat het moderatiebeslissingen neemt via online RL. Eerst construeren we GuardReasoner-VLTrain, een redeneercorpus met 123K samples en 631K redeneerstappen, die tekst-, beeld- en tekst-beeldinputs omvat. Vervolgens starten we het redeneervermogen van ons model koud op via SFT. Daarnaast verbeteren we het redeneren over moderatie verder via online RL. Concreet voeren we, om de diversiteit en moeilijkheidsgraad van de samples te vergroten, afwijzingssteekproeven uit, gevolgd door data-augmentatie via de voorgestelde veiligheidsbewuste dataconcatenatie. Bovendien gebruiken we een dynamische afkapparameter om exploratie in de vroege fasen en exploitatie in de latere fasen aan te moedigen. Om prestaties en token-efficiëntie in balans te brengen, ontwerpen we een lengtebewuste veiligheidsbeloning die nauwkeurigheid, formaat en tokenkosten integreert. Uitgebreide experimenten tonen de superioriteit van ons model aan. Opmerkelijk is dat het de runner-up gemiddeld met 19,27% F1-score overtreft. We publiceren de data, code en modellen (3B/7B) van GuardReasoner-VL op https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the guard model to deliberatively reason before making moderation decisions via online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with 123K samples and 631K reasoning steps, spanning text, image, and text-image inputs. Then, based on it, we cold-start our model's reasoning ability via SFT. In addition, we further enhance reasoning regarding moderation through online RL. Concretely, to enhance diversity and difficulty of samples, we conduct rejection sampling followed by data augmentation via the proposed safety-aware data concatenation. Besides, we use a dynamic clipping parameter to encourage exploration in early stages and exploitation in later stages. To balance performance and token efficiency, we design a length-aware safety reward that integrates accuracy, format, and token cost. Extensive experiments demonstrate the superiority of our model. Remarkably, it surpasses the runner-up by 19.27% F1 score on average. We release data, code, and models (3B/7B) of GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/

Summary

AI-Generated Summary

PDF495May 19, 2025