OMNIGUARD: Een efficiënte aanpak voor AI-veiligheidsmoderatie over meerdere modaliteiten

Samenvatting

De opkomende mogelijkheden van grote taalmodellen (LLMs) hebben zorgen gewekt over hun directe potentieel voor schadelijk misbruik. De kernaanpak om deze zorgen te verminderen is het detecteren van schadelijke queries aan het model. Huidige detectiebenaderingen zijn feilbaar en zijn bijzonder kwetsbaar voor aanvallen die gebruikmaken van ongeëvenaarde generalisatie van modelmogelijkheden (bijv. prompts in talen met weinig bronnen of prompts aangeboden in niet-tekstuele modaliteiten zoals afbeeldingen en audio). Om deze uitdaging aan te pakken, stellen we OMNIGUARD voor, een benadering voor het detecteren van schadelijke prompts over talen en modaliteiten heen. Onze benadering (i) identificeert interne representaties van een LLM/MLLM die zijn afgestemd over talen of modaliteiten en gebruikt deze vervolgens (ii) om een taal- of modaliteit-onafhankelijke classifier te bouwen voor het detecteren van schadelijke prompts. OMNIGUARD verbetert de nauwkeurigheid van schadelijke promptclassificatie met 11,57\% ten opzichte van de sterkste baseline in een meertalige omgeving, met 20,44\% voor op afbeeldingen gebaseerde prompts, en stelt een nieuwe SOTA voor op audio gebaseerde prompts. Door embeddings die tijdens generatie worden berekend te hergebruiken, is OMNIGUARD ook zeer efficiënt (ongeveer 120 keer sneller dan de op een na snelste baseline). Code en gegevens zijn beschikbaar op: https://github.com/vsahil/OmniGuard.

English

The emerging capabilities of large language models (LLMs) have sparked concerns about their immediate potential for harmful misuse. The core approach to mitigate these concerns is the detection of harmful queries to the model. Current detection approaches are fallible, and are particularly susceptible to attacks that exploit mismatched generalization of model capabilities (e.g., prompts in low-resource languages or prompts provided in non-text modalities such as image and audio). To tackle this challenge, we propose OMNIGUARD, an approach for detecting harmful prompts across languages and modalities. Our approach (i) identifies internal representations of an LLM/MLLM that are aligned across languages or modalities and then (ii) uses them to build a language-agnostic or modality-agnostic classifier for detecting harmful prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\% over the strongest baseline in a multilingual setting, by 20.44\% for image-based prompts, and sets a new SOTA for audio-based prompts. By repurposing embeddings computed during generation, OMNIGUARD is also very efficient (approx 120 times faster than the next fastest baseline). Code and data are available at: https://github.com/vsahil/OmniGuard.

OMNIGUARD: Een efficiënte aanpak voor AI-veiligheidsmoderatie over meerdere modaliteiten

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

Samenvatting

Support