ChatPaper.aiChatPaper

OMNIGUARD: Эффективный подход к обеспечению безопасности ИИ при модерации в различных модальностях

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

May 29, 2025
Авторы: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
cs.AI

Аннотация

Возникающие возможности крупных языковых моделей (LLM) вызывают опасения относительно их потенциального вредоносного использования. Основной подход для смягчения этих опасений заключается в обнаружении вредоносных запросов к модели. Современные методы обнаружения несовершенны и особенно уязвимы к атакам, которые эксплуатируют несоответствие в обобщении возможностей модели (например, запросы на малоресурсных языках или запросы, представленные в нетекстовых модальностях, таких как изображения и аудио). Для решения этой проблемы мы предлагаем OMNIGUARD — подход для обнаружения вредоносных запросов на разных языках и в различных модальностях. Наш подход (i) идентифицирует внутренние представления LLM/MLLM, которые согласованы между языками или модальностями, и затем (ii) использует их для построения языково-независимого или модальностно-независимого классификатора для обнаружения вредоносных запросов. OMNIGUARD улучшает точность классификации вредоносных запросов на 11,57% по сравнению с самым сильным базовым методом в многоязычной среде, на 20,44% для запросов на основе изображений и устанавливает новый рекорд (SOTA) для запросов на основе аудио. Благодаря повторному использованию эмбеддингов, вычисленных в процессе генерации, OMNIGUARD также является очень эффективным (примерно в 120 раз быстрее, чем следующий самый быстрый базовый метод). Код и данные доступны по адресу: https://github.com/vsahil/OmniGuard.
English
The emerging capabilities of large language models (LLMs) have sparked concerns about their immediate potential for harmful misuse. The core approach to mitigate these concerns is the detection of harmful queries to the model. Current detection approaches are fallible, and are particularly susceptible to attacks that exploit mismatched generalization of model capabilities (e.g., prompts in low-resource languages or prompts provided in non-text modalities such as image and audio). To tackle this challenge, we propose OMNIGUARD, an approach for detecting harmful prompts across languages and modalities. Our approach (i) identifies internal representations of an LLM/MLLM that are aligned across languages or modalities and then (ii) uses them to build a language-agnostic or modality-agnostic classifier for detecting harmful prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\% over the strongest baseline in a multilingual setting, by 20.44\% for image-based prompts, and sets a new SOTA for audio-based prompts. By repurposing embeddings computed during generation, OMNIGUARD is also very efficient (approx 120 times faster than the next fastest baseline). Code and data are available at: https://github.com/vsahil/OmniGuard.
PDF22June 2, 2025