GuardReasoner-VL: Protezione dei Modelli Linguistici Visivi tramite Ragionamento Rinforzato
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
Autori: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
Abstract
Per migliorare la sicurezza dei VLM, questo articolo introduce un nuovo modello di guardia basato sul ragionamento, denominato GuardReasoner-VL. L'idea centrale è incentivare il modello di guardia a ragionare deliberatamente prima di prendere decisioni di moderazione tramite RL online. In primo luogo, costruiamo GuardReasoner-VLTrain, un corpus di ragionamento con 123K campioni e 631K passaggi di ragionamento, che copre input di testo, immagini e testo-immagini. Successivamente, basandoci su questo, avviamo la capacità di ragionamento del nostro modello tramite SFT. Inoltre, miglioriamo ulteriormente il ragionamento riguardo alla moderazione attraverso RL online. Nello specifico, per aumentare la diversità e la difficoltà dei campioni, eseguiamo un campionamento di rifiuto seguito da un aumento dei dati tramite la proposta di concatenazione dei dati consapevole della sicurezza. Oltre a ciò, utilizziamo un parametro di clipping dinamico per incoraggiare l'esplorazione nelle fasi iniziali e lo sfruttamento nelle fasi successive. Per bilanciare le prestazioni e l'efficienza dei token, progettiamo una ricompensa di sicurezza basata sulla lunghezza che integra accuratezza, formato e costo dei token. Esperimenti estensivi dimostrano la superiorità del nostro modello. In particolare, supera il secondo classificato di una media del 19,27% nel punteggio F1. Rilasciamo dati, codice e modelli (3B/7B) di GuardReasoner-VL all'indirizzo https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/