GuardReasoner-VL : Sécurisation des modèles de langage visuel par raisonnement renforcé
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
Auteurs: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
Résumé
Pour améliorer la sécurité des modèles de langage visuel (VLMs), cet article présente un nouveau modèle de protection basé sur le raisonnement, nommé GuardReasoner-VL. L'idée centrale est d'inciter le modèle de protection à raisonner de manière délibérée avant de prendre des décisions de modération via l'apprentissage par renforcement en ligne (RL). Tout d'abord, nous construisons GuardReasoner-VLTrain, un corpus de raisonnement contenant 123 000 échantillons et 631 000 étapes de raisonnement, couvrant des entrées textuelles, visuelles et textuelles-visuelles. Ensuite, sur cette base, nous initialisons la capacité de raisonnement de notre modèle via un apprentissage supervisé fin (SFT). De plus, nous renforçons davantage le raisonnement concernant la modération grâce à l'apprentissage par renforcement en ligne. Concrètement, pour augmenter la diversité et la difficulté des échantillons, nous effectuons un échantillonnage par rejet suivi d'une augmentation des données via une concaténation de données consciente de la sécurité. Par ailleurs, nous utilisons un paramètre de découpage dynamique pour encourager l'exploration dans les premières étapes et l'exploitation dans les étapes ultérieures. Pour équilibrer la performance et l'efficacité des tokens, nous concevons une récompense de sécurité prenant en compte la longueur, qui intègre la précision, le format et le coût en tokens. Des expériences approfondies démontrent la supériorité de notre modèle. De manière remarquable, il surpasse le second meilleur modèle par un score F1 moyen de 19,27 %. Nous mettons à disposition les données, le code et les modèles (3B/7B) de GuardReasoner-VL à l'adresse https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/Summary
AI-Generated Summary