OMNIGUARD: Un enfoque eficiente para la moderación de seguridad en IA a través de modalidades
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
May 29, 2025
Autores: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI
Resumen
Las capacidades emergentes de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han generado preocupación sobre su potencial inmediato para un uso dañino. El enfoque principal para mitigar estas preocupaciones es la detección de consultas perjudiciales dirigidas al modelo. Los enfoques de detección actuales son falibles y son particularmente susceptibles a ataques que explotan una generalización desajustada de las capacidades del modelo (por ejemplo, instrucciones en idiomas de bajos recursos o instrucciones proporcionadas en modalidades no textuales como imágenes y audio). Para abordar este desafío, proponemos OMNIGUARD, un enfoque para detectar instrucciones dañinas en múltiples idiomas y modalidades. Nuestro enfoque (i) identifica representaciones internas de un LLM/MLLM que están alineadas entre idiomas o modalidades y luego (ii) las utiliza para construir un clasificador independiente del idioma o la modalidad para detectar instrucciones dañinas. OMNIGUARD mejora la precisión en la clasificación de instrucciones dañinas en un 11,57\% sobre el mejor punto de referencia en un entorno multilingüe, en un 20,44\% para instrucciones basadas en imágenes y establece un nuevo estado del arte (SOTA) para instrucciones basadas en audio. Al reutilizar incrustaciones calculadas durante la generación, OMNIGUARD también es muy eficiente (aproximadamente 120 veces más rápido que el siguiente punto de referencia más rápido). El código y los datos están disponibles en: https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked
concerns about their immediate potential for harmful misuse. The core approach
to mitigate these concerns is the detection of harmful queries to the model.
Current detection approaches are fallible, and are particularly susceptible to
attacks that exploit mismatched generalization of model capabilities (e.g.,
prompts in low-resource languages or prompts provided in non-text modalities
such as image and audio). To tackle this challenge, we propose OMNIGUARD, an
approach for detecting harmful prompts across languages and modalities. Our
approach (i) identifies internal representations of an LLM/MLLM that are
aligned across languages or modalities and then (ii) uses them to build a
language-agnostic or modality-agnostic classifier for detecting harmful
prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\%
over the strongest baseline in a multilingual setting, by 20.44\% for
image-based prompts, and sets a new SOTA for audio-based prompts. By
repurposing embeddings computed during generation, OMNIGUARD is also very
efficient (approx 120 times faster than the next fastest baseline). Code
and data are available at: https://github.com/vsahil/OmniGuard.