ProGuard: Hacia una Salvaguardia Multimodal Proactiva
ProGuard: Towards Proactive Multimodal Safeguard
December 29, 2025
Autores: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao
cs.AI
Resumen
La rápida evolución de los modelos generativos ha dado lugar a una aparición continua de riesgos de seguridad multimodal, exponiendo las limitaciones de los métodos de defensa existentes. Para abordar estos desafíos, proponemos ProGuard, un guardia proactivo de visión y lenguaje que identifica y describe riesgos de seguridad fuera de distribución (OOD) sin necesidad de los ajustes de modelo que requieren los enfoques reactivos tradicionales. Primero construimos un conjunto de datos equilibrado multimodal de 87K muestras, cada una anotada con etiquetas de seguridad binarias y categorías de riesgo bajo una taxonomía de seguridad multimodal jerárquica, mitigando eficazmente el sesgo de modalidad y garantizando una moderación consistente en entradas de texto, imagen y texto-imagen. Basándonos en este conjunto de datos, entrenamos nuestro modelo base de visión y lenguaje únicamente mediante aprendizaje por refuerzo (RL) para lograr un razonamiento eficiente y conciso. Para aproximar escenarios de seguridad proactiva en un entorno controlado, introducimos además una tarea de inferencia de categorías de seguridad OOD y aumentamos el objetivo de RL con una recompensa de similitud basada en un banco de sinónimos que incentiva al modelo a generar descripciones concisas para categorías no seguras no vistas. Los resultados experimentales muestran que ProGuard alcanza un rendimiento comparable al de los grandes modelos cerrados en clasificación de seguridad binaria, y supera sustancialmente a los modelos guardia de código abierto existentes en categorización de contenido no seguro. Más notablemente, ProGuard ofrece una fuerte capacidad de moderación proactiva, mejorando la detección de riesgos OOD en un 52.6% y la descripción de riesgos OOD en un 64.8%.
English
The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.