ChatPaper.aiChatPaper

OMNIGUARD: Uma Abordagem Eficiente para Moderação de Segurança em IA em Múltiplas Modalidades

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

May 29, 2025
Autores: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI

Resumo

As capacidades emergentes dos grandes modelos de linguagem (LLMs) têm gerado preocupações sobre seu potencial imediato para uso malicioso. A abordagem central para mitigar essas preocupações é a detecção de consultas prejudiciais ao modelo. As abordagens atuais de detecção são falhas e são particularmente suscetíveis a ataques que exploram a generalização desalinhada das capacidades do modelo (por exemplo, prompts em idiomas de baixo recurso ou prompts fornecidos em modalidades não textuais, como imagem e áudio). Para enfrentar esse desafio, propomos o OMNIGUARD, uma abordagem para detectar prompts prejudiciais em diferentes idiomas e modalidades. Nossa abordagem (i) identifica representações internas de um LLM/MLLM que estão alinhadas entre idiomas ou modalidades e, em seguida, (ii) as utiliza para construir um classificador independente de idioma ou modalidade para detectar prompts prejudiciais. O OMNIGUARD melhora a precisão da classificação de prompts prejudiciais em 11,57% em relação à linha de base mais forte em um cenário multilíngue, em 20,44% para prompts baseados em imagem e estabelece um novo estado da arte (SOTA) para prompts baseados em áudio. Ao reaproveitar embeddings calculados durante a geração, o OMNIGUARD também é muito eficiente (aproximadamente 120 vezes mais rápido que a próxima linha de base mais rápida). O código e os dados estão disponíveis em: https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked concerns about their immediate potential for harmful misuse. The core approach to mitigate these concerns is the detection of harmful queries to the model. Current detection approaches are fallible, and are particularly susceptible to attacks that exploit mismatched generalization of model capabilities (e.g., prompts in low-resource languages or prompts provided in non-text modalities such as image and audio). To tackle this challenge, we propose OMNIGUARD, an approach for detecting harmful prompts across languages and modalities. Our approach (i) identifies internal representations of an LLM/MLLM that are aligned across languages or modalities and then (ii) uses them to build a language-agnostic or modality-agnostic classifier for detecting harmful prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\% over the strongest baseline in a multilingual setting, by 20.44\% for image-based prompts, and sets a new SOTA for audio-based prompts. By repurposing embeddings computed during generation, OMNIGUARD is also very efficient (approx 120 times faster than the next fastest baseline). Code and data are available at: https://github.com/vsahil/OmniGuard.
PDF22June 2, 2025