Sentinel: передовая модель для защиты от инъекций в промпты
Sentinel: SOTA model to protect against prompt injections
June 5, 2025
Авторы: Dror Ivry, Oran Nahum
cs.AI
Аннотация
Крупные языковые модели (LLM) становятся всё более мощными, но остаются уязвимыми к атакам с использованием инъекции промптов, когда вредоносные входные данные заставляют модель отклоняться от заданных инструкций. В данной статье представлена модель Sentinel, qualifire/prompt-injection-sentinel, основанная на архитектуре \answerdotai/ModernBERT-large. Используя передовые возможности ModernBERT и тонкую настройку на обширном и разнообразном наборе данных, включающем несколько открытых и частных коллекций, Sentinel достигает наивысшей производительности. Этот набор данных объединяет различные типы атак, от ролевого моделирования и захвата инструкций до попыток генерации предвзятого контента, наряду с широким спектром доброкачественных инструкций, причём частные наборы данных специально ориентированы на тонкую коррекцию ошибок и реальные случаи ошибочной классификации. На всеобъемлющем внутреннем тестовом наборе данных, не использовавшемся при обучении, Sentinel демонстрирует среднюю точность 0,987 и F1-меру 0,980. Более того, при оценке на публичных бенчмарках она стабильно превосходит сильные базовые модели, такие как protectai/deberta-v3-base-prompt-injection-v2. В работе подробно описываются архитектура Sentinel, тщательная подготовка набора данных, методология обучения и всесторонняя оценка, подчеркивающая её превосходные возможности обнаружения.
English
Large Language Models (LLMs) are increasingly powerful but remain vulnerable
to prompt injection attacks, where malicious inputs cause the model to deviate
from its intended instructions. This paper introduces Sentinel, a novel
detection model, qualifire/prompt-injection-sentinel, based on the
\answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced
features and fine-tuning on an extensive and diverse dataset comprising a few
open-source and private collections, Sentinel achieves state-of-the-art
performance. This dataset amalgamates varied attack types, from role-playing
and instruction hijacking to attempts to generate biased content, alongside a
broad spectrum of benign instructions, with private datasets specifically
targeting nuanced error correction and real-world misclassifications. On a
comprehensive, unseen internal test set, Sentinel demonstrates an average
accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on
public benchmarks, it consistently outperforms strong baselines like
protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's
architecture, its meticulous dataset curation, its training methodology, and a
thorough evaluation, highlighting its superior detection capabilities.