ProGuard: в сторону проактивной мультимодальной защиты
ProGuard: Towards Proactive Multimodal Safeguard
December 29, 2025
Авторы: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI
Аннотация
Быстрая эволюция генеративных моделей привела к постоянному появлению мультимодальных рисков безопасности, выявив ограничения существующих методов защиты. Для решения этих проблем мы предлагаем ProGuard — проактивную систему защиты для визуально-текстовых данных, которая идентифицирует и описывает риски безопасности вне распределения (OOD) без необходимости корректировки моделей, требуемой традиционными реактивными подходами. Сначала мы создали сбалансированный по модальностям набор данных из 87 тыс. образцов, каждый из которых аннотирован бинарными метками безопасности и категориями рисков в соответствии с иерархической мультимодальной таксономией безопасности, что эффективно снижает смещение модальностей и обеспечивает согласованную модерацию для текстовых, визуальных и текстово-визуальных входных данных. На основе этого набора данных мы обучаем нашу базовую визуально-текстовую модель исключительно с помощью обучения с подкреплением (RL) для достижения эффективного и лаконичного логического вывода. Для аппроксимации проактивных сценариев безопасности в контролируемых условиях мы дополнительно вводим задачу вывода категорий OOD-рисков и расширяем RL-целевой функцией вознаграждение на основе синонимического банка, которое побуждает модель генерировать лаконичные описания для неизвестных небезопасных категорий. Результаты экспериментов показывают, что ProGuard демонстрирует производительность, сопоставимую с закрытыми большими моделями в бинарной классификации безопасности, и значительно превосходит существующие модели-защитники с открытым исходным кодом в категоризации небезопасного контента. Наиболее важно, что ProGuard обеспечивает высокую проактивную способность модерации, улучшая обнаружение OOD-рисков на 52,6% и их описание на 64,8%.
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.