GuardReasoner-VL: Защита визуально-языковых моделей через усиленное рассуждение
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
May 16, 2025
Авторы: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
cs.AI
Аннотация
Для повышения безопасности визуально-языковых моделей (VLM) в данной статье представлена новая модель защиты на основе рассуждений, названная GuardReasoner-VL. Основная идея заключается в том, чтобы побудить модель защиты к осознанному рассуждению перед принятием решений о модерации с использованием онлайн-обучения с подкреплением (RL). Сначала мы создаем GuardReasoner-VLTrain — корпус для рассуждений, содержащий 123 тыс. образцов и 631 тыс. шагов рассуждений, охватывающих текстовые, визуальные и текстово-визуальные входные данные. Затем на его основе мы инициализируем способность модели к рассуждениям с помощью обучения с учителем (SFT). Кроме того, мы дополнительно улучшаем рассуждения, связанные с модерацией, с помощью онлайн-RL. Конкретно, для повышения разнообразия и сложности образцов мы применяем отбор с отклонением с последующим расширением данных через предложенную конкатенацию данных с учетом безопасности. Также мы используем динамический параметр обрезки, чтобы стимулировать исследование на ранних этапах и использование накопленных знаний на поздних этапах. Для баланса производительности и эффективности использования токенов мы разрабатываем награду за безопасность, учитывающую длину, которая интегрирует точность, формат и стоимость токенов. Многочисленные эксперименты демонстрируют превосходство нашей модели. Примечательно, что она превосходит ближайшего конкурента в среднем на 19,27% по F1-метрике. Мы публикуем данные, код и модели (3B/7B) GuardReasoner-VL по адресу https://github.com/yueliu1999/GuardReasoner-VL/.
English
To enhance the safety of VLMs, this paper introduces a novel reasoning-based
VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the
guard model to deliberatively reason before making moderation decisions via
online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with
123K samples and 631K reasoning steps, spanning text, image, and text-image
inputs. Then, based on it, we cold-start our model's reasoning ability via SFT.
In addition, we further enhance reasoning regarding moderation through online
RL. Concretely, to enhance diversity and difficulty of samples, we conduct
rejection sampling followed by data augmentation via the proposed safety-aware
data concatenation. Besides, we use a dynamic clipping parameter to encourage
exploration in early stages and exploitation in later stages. To balance
performance and token efficiency, we design a length-aware safety reward that
integrates accuracy, format, and token cost. Extensive experiments demonstrate
the superiority of our model. Remarkably, it surpasses the runner-up by 19.27%
F1 score on average. We release data, code, and models (3B/7B) of
GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/Summary
AI-Generated Summary