OMNIGUARD: Een efficiënte aanpak voor AI-veiligheidsmoderatie over meerdere modaliteiten
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
May 29, 2025
Auteurs: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI
Samenvatting
De opkomende mogelijkheden van grote taalmodellen (LLMs) hebben zorgen gewekt over hun directe potentieel voor schadelijk misbruik. De kernaanpak om deze zorgen te verminderen is het detecteren van schadelijke queries aan het model. Huidige detectiebenaderingen zijn feilbaar en zijn bijzonder kwetsbaar voor aanvallen die gebruikmaken van ongeëvenaarde generalisatie van modelmogelijkheden (bijv. prompts in talen met weinig bronnen of prompts aangeboden in niet-tekstuele modaliteiten zoals afbeeldingen en audio). Om deze uitdaging aan te pakken, stellen we OMNIGUARD voor, een benadering voor het detecteren van schadelijke prompts over talen en modaliteiten heen. Onze benadering (i) identificeert interne representaties van een LLM/MLLM die zijn afgestemd over talen of modaliteiten en gebruikt deze vervolgens (ii) om een taal- of modaliteit-onafhankelijke classifier te bouwen voor het detecteren van schadelijke prompts. OMNIGUARD verbetert de nauwkeurigheid van schadelijke promptclassificatie met 11,57\% ten opzichte van de sterkste baseline in een meertalige omgeving, met 20,44\% voor op afbeeldingen gebaseerde prompts, en stelt een nieuwe SOTA voor op audio gebaseerde prompts. Door embeddings die tijdens generatie worden berekend te hergebruiken, is OMNIGUARD ook zeer efficiënt (ongeveer 120 keer sneller dan de op een na snelste baseline). Code en gegevens zijn beschikbaar op: https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked
concerns about their immediate potential for harmful misuse. The core approach
to mitigate these concerns is the detection of harmful queries to the model.
Current detection approaches are fallible, and are particularly susceptible to
attacks that exploit mismatched generalization of model capabilities (e.g.,
prompts in low-resource languages or prompts provided in non-text modalities
such as image and audio). To tackle this challenge, we propose OMNIGUARD, an
approach for detecting harmful prompts across languages and modalities. Our
approach (i) identifies internal representations of an LLM/MLLM that are
aligned across languages or modalities and then (ii) uses them to build a
language-agnostic or modality-agnostic classifier for detecting harmful
prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\%
over the strongest baseline in a multilingual setting, by 20.44\% for
image-based prompts, and sets a new SOTA for audio-based prompts. By
repurposing embeddings computed during generation, OMNIGUARD is also very
efficient (approx 120 times faster than the next fastest baseline). Code
and data are available at: https://github.com/vsahil/OmniGuard.