ChatPaper.aiChatPaper

OMNIGUARD: Ein effizienter Ansatz für die KI-Sicherheitsmoderation über Modalitäten hinweg

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

May 29, 2025
Autoren: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI

Zusammenfassung

Die aufkommenden Fähigkeiten großer Sprachmodelle (LLMs) haben Bedenken hinsichtlich ihres unmittelbaren Potenzials für schädlichen Missbrauch geweckt. Der Kernansatz zur Minderung dieser Bedenken ist die Erkennung schädlicher Anfragen an das Modell. Aktuelle Erkennungsansätze sind fehleranfällig und besonders anfällig für Angriffe, die eine ungleiche Generalisierung der Modellfähigkeiten ausnutzen (z. B. Prompts in ressourcenarmen Sprachen oder Prompts, die in nicht-textuellen Modalitäten wie Bild und Audio bereitgestellt werden). Um diese Herausforderung zu bewältigen, schlagen wir OMNIGUARD vor, einen Ansatz zur Erkennung schädlicher Prompts über Sprachen und Modalitäten hinweg. Unser Ansatz (i) identifiziert interne Repräsentationen eines LLM/MLLM, die über Sprachen oder Modalitäten hinweg ausgerichtet sind, und (ii) verwendet diese, um einen sprach- oder modalitätsunabhängigen Klassifikator zur Erkennung schädlicher Prompts zu erstellen. OMNIGUARD verbessert die Genauigkeit der Klassifikation schädlicher Prompts um 11,57\% gegenüber der stärksten Baseline in einer mehrsprachigen Umgebung, um 20,44\% für bildbasierte Prompts und setzt einen neuen State-of-the-Art (SOTA) für audiobasierte Prompts. Durch die Wiederverwendung von Embeddings, die während der Generierung berechnet werden, ist OMNIGUARD auch sehr effizient (etwa 120 Mal schneller als die nächstschnellste Baseline). Code und Daten sind verfügbar unter: https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked concerns about their immediate potential for harmful misuse. The core approach to mitigate these concerns is the detection of harmful queries to the model. Current detection approaches are fallible, and are particularly susceptible to attacks that exploit mismatched generalization of model capabilities (e.g., prompts in low-resource languages or prompts provided in non-text modalities such as image and audio). To tackle this challenge, we propose OMNIGUARD, an approach for detecting harmful prompts across languages and modalities. Our approach (i) identifies internal representations of an LLM/MLLM that are aligned across languages or modalities and then (ii) uses them to build a language-agnostic or modality-agnostic classifier for detecting harmful prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\% over the strongest baseline in a multilingual setting, by 20.44\% for image-based prompts, and sets a new SOTA for audio-based prompts. By repurposing embeddings computed during generation, OMNIGUARD is also very efficient (approx 120 times faster than the next fastest baseline). Code and data are available at: https://github.com/vsahil/OmniGuard.
PDF22June 2, 2025