GuardReasoner-VL: Protegendo Modelos de Linguagem Visual por meio de Raciocínio Reforçado
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
Autores: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
Resumo
Para aprimorar a segurança dos VLMs (Modelos de Linguagem Visual), este artigo introduz um novo modelo de guarda baseado em raciocínio, denominado GuardReasoner-VL. A ideia central é incentivar o modelo de guarda a deliberar e raciocinar antes de tomar decisões de moderação por meio de RL (Reinforcement Learning) online. Primeiro, construímos o GuardReasoner-VLTrain, um corpus de raciocínio com 123 mil amostras e 631 mil etapas de raciocínio, abrangendo entradas de texto, imagem e texto-imagem. Em seguida, com base nisso, iniciamos a capacidade de raciocínio do nosso modelo via SFT (Supervised Fine-Tuning). Além disso, aprimoramos ainda mais o raciocínio relacionado à moderação por meio de RL online. Especificamente, para aumentar a diversidade e a dificuldade das amostras, realizamos amostragem por rejeição seguida de aumento de dados por meio da concatenação de dados consciente da segurança proposta. Além disso, utilizamos um parâmetro de corte dinâmico para incentivar a exploração nas fases iniciais e a exploração nas fases posteriores. Para equilibrar desempenho e eficiência de tokens, projetamos uma recompensa de segurança consciente do comprimento que integra precisão, formato e custo de tokens. Experimentos extensivos demonstram a superioridade do nosso modelo. Notavelmente, ele supera o segundo colocado por uma média de 19,27% no F1 score. Disponibilizamos dados, código e modelos (3B/7B) do GuardReasoner-VL em https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/