GuardReasoner-VL: Protegiendo los Modelos de Lenguaje Visual mediante Razonamiento Reforzado
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
Autores: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
Resumen
Para mejorar la seguridad de los VLMs, este artículo introduce un nuevo modelo de protección basado en razonamiento denominado GuardReasoner-VL. La idea central es incentivar al modelo de protección a razonar deliberadamente antes de tomar decisiones de moderación mediante RL en línea. Primero, construimos GuardReasoner-VLTrain, un corpus de razonamiento con 123K muestras y 631K pasos de razonamiento, que abarca entradas de texto, imágenes y texto-imagen. Luego, basándonos en él, iniciamos la capacidad de razonamiento de nuestro modelo mediante SFT. Además, mejoramos aún más el razonamiento en cuanto a la moderación a través de RL en línea. Concretamente, para aumentar la diversidad y dificultad de las muestras, realizamos muestreo por rechazo seguido de aumento de datos mediante la propuesta de concatenación de datos consciente de la seguridad. Además, utilizamos un parámetro de recorte dinámico para fomentar la exploración en las etapas iniciales y la explotación en las etapas posteriores. Para equilibrar el rendimiento y la eficiencia de tokens, diseñamos una recompensa de seguridad consciente de la longitud que integra precisión, formato y costo de tokens. Experimentos extensos demuestran la superioridad de nuestro modelo. Notablemente, supera al segundo lugar por un 19.27% en puntuación F1 en promedio. Publicamos los datos, código y modelos (3B/7B) de GuardReasoner-VL en https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/Summary
AI-Generated Summary