ProGuard: Rumo a uma Salvaguarda Multimodal Proativa

Resumo

A rápida evolução dos modelos generativos tem levado ao surgimento contínuo de riscos de segurança multimodais, expondo as limitações dos métodos de defesa existentes. Para enfrentar esses desafios, propomos o ProGuard, um guardião proativo de visão e linguagem que identifica e descreve riscos de segurança fora da distribuição (OOD) sem a necessidade dos ajustes de modelo exigidos pelas abordagens reativas tradicionais. Primeiro, construímos um conjunto de dados balanceado por modalidade com 87 mil amostras, cada uma anotada com rótulos binários de segurança e categorias de risco sob uma taxonomia hierárquica de segurança multimodal, mitigando efetivamente o viés de modalidade e garantindo moderação consistente em entradas de texto, imagem e texto-imagem. Com base nesse conjunto de dados, treinamos nosso modelo base de visão e linguagem puramente por meio de aprendizado por reforço (RL) para alcançar um raciocínio eficiente e conciso. Para aproximar cenários proativos de segurança em um ambiente controlado, introduzimos adicionalmente uma tarefa de inferência de categoria de segurança OOD e aumentamos o objetivo de RL com uma recompensa de similaridade baseada em banco de sinônimos que incentiva o modelo a gerar descrições concisas para categorias inseguras não vistas. Os resultados experimentais mostram que o ProGuard alcança desempenho comparável a grandes modelos de código fechado na classificação binária de segurança e supera substancialmente os modelos guardiões de código aberto existentes na categorização de conteúdo inseguro. Mais notavelmente, o ProGuard oferece uma forte capacidade de moderação proativa, melhorando a detecção de riscos OOD em 52,6% e a descrição de riscos OOD em 64,8%.

English

The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.

ProGuard: Rumo a uma Salvaguarda Multimodal Proativa

ProGuard: Towards Proactive Multimodal Safeguard

Resumo

Support