GuardReasoner-VL: Schutz von VLMs durch verstärktes Reasoning
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
Autoren: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
Zusammenfassung
Um die Sicherheit von VLMs zu verbessern, stellt dieses Papier ein neuartiges, auf logischem Denken basierendes VLM-Schutzmodell namens GuardReasoner-VL vor. Die Kernidee besteht darin, das Schutzmodell dazu anzuregen, bewusst zu überlegen, bevor es Moderationsentscheidungen trifft, und dies durch Online-Reinforcement-Learning (RL) zu erreichen. Zunächst erstellen wir GuardReasoner-VLTrain, ein Korpus mit 123.000 Beispielen und 631.000 Denkschritten, der Text-, Bild- und Text-Bild-Eingaben umfasst. Basierend darauf initialisieren wir die Denkfähigkeit unseres Modells durch Supervised Fine-Tuning (SFT). Darüber hinaus verbessern wir das Denken in Bezug auf Moderation durch Online-RL. Konkret führen wir zur Erhöhung der Vielfalt und Schwierigkeit der Beispiele eine Ablehnungsstichprobe durch, gefolgt von einer Datenanreicherung durch die vorgeschlagene sicherheitsbewusste Datenverkettung. Zusätzlich verwenden wir einen dynamischen Clipping-Parameter, um in frühen Phasen Exploration und in späteren Phasen Exploitation zu fördern. Um Leistung und Token-Effizienz auszugleichen, entwerfen wir eine längenbewusste Sicherheitsbelohnung, die Genauigkeit, Format und Token-Kosten integriert. Umfangreiche Experimente demonstrieren die Überlegenheit unseres Modells. Bemerkenswerterweise übertrifft es den Zweitplatzierten im Durchschnitt um 19,27 % im F1-Score. Wir veröffentlichen die Daten, den Code und die Modelle (3B/7B) von GuardReasoner-VL unter https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/Summary
AI-Generated Summary