OMNIGUARD : Une approche efficace pour la modération de la sécurité de l'IA à travers les modalités
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
May 29, 2025
Auteurs: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI
Résumé
Les capacités émergentes des grands modèles de langage (LLMs) ont suscité des inquiétudes quant à leur potentiel immédiat d'utilisation néfaste. L'approche principale pour atténuer ces préoccupations est la détection des requêtes nuisibles adressées au modèle. Les méthodes de détection actuelles sont faillibles et particulièrement vulnérables aux attaques qui exploitent une généralisation incohérente des capacités du modèle (par exemple, des prompts dans des langues peu représentées ou des prompts fournis sous des modalités non textuelles telles que l'image et l'audio). Pour relever ce défi, nous proposons OMNIGUARD, une approche pour détecter les prompts nuisibles à travers les langues et les modalités. Notre méthode (i) identifie les représentations internes d'un LLM/MLLM qui sont alignées entre les langues ou les modalités, puis (ii) les utilise pour construire un classificateur indépendant de la langue ou de la modalité afin de détecter les prompts nuisibles. OMNIGUARD améliore la précision de classification des prompts nuisibles de 11,57 % par rapport à la base de référence la plus solide dans un contexte multilingue, de 20,44 % pour les prompts basés sur l'image, et établit un nouvel état de l'art pour les prompts basés sur l'audio. En réutilisant les embeddings calculés lors de la génération, OMNIGUARD est également très efficace (environ 120 fois plus rapide que la base de référence suivante). Le code et les données sont disponibles à l'adresse : https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked
concerns about their immediate potential for harmful misuse. The core approach
to mitigate these concerns is the detection of harmful queries to the model.
Current detection approaches are fallible, and are particularly susceptible to
attacks that exploit mismatched generalization of model capabilities (e.g.,
prompts in low-resource languages or prompts provided in non-text modalities
such as image and audio). To tackle this challenge, we propose OMNIGUARD, an
approach for detecting harmful prompts across languages and modalities. Our
approach (i) identifies internal representations of an LLM/MLLM that are
aligned across languages or modalities and then (ii) uses them to build a
language-agnostic or modality-agnostic classifier for detecting harmful
prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\%
over the strongest baseline in a multilingual setting, by 20.44\% for
image-based prompts, and sets a new SOTA for audio-based prompts. By
repurposing embeddings computed during generation, OMNIGUARD is also very
efficient (approx 120 times faster than the next fastest baseline). Code
and data are available at: https://github.com/vsahil/OmniGuard.