ChatPaper.aiChatPaper

OMNIGUARD: Un Approccio Efficiente per la Moderazione della Sicurezza dell'IA Attraverso le Modalità

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

May 29, 2025
Autori: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI

Abstract

Le capacità emergenti dei grandi modelli linguistici (LLM) hanno suscitato preoccupazioni riguardo al loro potenziale immediato di uso dannoso. L'approccio principale per mitigare queste preoccupazioni è il rilevamento di query dannose rivolte al modello. Gli attuali metodi di rilevamento sono fallibili e particolarmente vulnerabili ad attacchi che sfruttano una generalizzazione non allineata delle capacità del modello (ad esempio, prompt in lingue a bassa risorsa o prompt forniti in modalità non testuali come immagini e audio). Per affrontare questa sfida, proponiamo OMNIGUARD, un approccio per il rilevamento di prompt dannosi attraverso lingue e modalità. Il nostro metodo (i) identifica le rappresentazioni interne di un LLM/MLLM che sono allineate tra lingue o modalità e poi (ii) le utilizza per costruire un classificatore indipendente dalla lingua o dalla modalità per rilevare prompt dannosi. OMNIGUARD migliora l'accuratezza della classificazione dei prompt dannosi dell'11,57% rispetto al baseline più forte in un contesto multilingue, del 20,44% per prompt basati su immagini e stabilisce un nuovo stato dell'arte per prompt basati su audio. Riusando gli embedding calcolati durante la generazione, OMNIGUARD è anche molto efficiente (circa 120 volte più veloce del baseline più rapido successivo). Codice e dati sono disponibili su: https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked concerns about their immediate potential for harmful misuse. The core approach to mitigate these concerns is the detection of harmful queries to the model. Current detection approaches are fallible, and are particularly susceptible to attacks that exploit mismatched generalization of model capabilities (e.g., prompts in low-resource languages or prompts provided in non-text modalities such as image and audio). To tackle this challenge, we propose OMNIGUARD, an approach for detecting harmful prompts across languages and modalities. Our approach (i) identifies internal representations of an LLM/MLLM that are aligned across languages or modalities and then (ii) uses them to build a language-agnostic or modality-agnostic classifier for detecting harmful prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\% over the strongest baseline in a multilingual setting, by 20.44\% for image-based prompts, and sets a new SOTA for audio-based prompts. By repurposing embeddings computed during generation, OMNIGUARD is also very efficient (approx 120 times faster than the next fastest baseline). Code and data are available at: https://github.com/vsahil/OmniGuard.
PDF22June 2, 2025