Sentinel: Modelo de última geração para proteção contra injeções de prompt
Sentinel: SOTA model to protect against prompt injections
June 5, 2025
Autores: Dror Ivry, Oran Nahum
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) estão se tornando cada vez mais poderosos, mas permanecem vulneráveis a ataques de injeção de prompt, onde entradas maliciosas fazem o modelo desviar de suas instruções pretendidas. Este artigo apresenta o Sentinel, um novo modelo de detecção, qualifire/prompt-injection-sentinel, baseado na arquitetura \answerdotai/ModernBERT-large. Ao aproveitar os recursos avançados do ModernBERT e ajustar finamente um extenso e diversificado conjunto de dados que inclui algumas coleções de código aberto e privadas, o Sentinel alcança desempenho de ponta. Esse conjunto de dados combina diversos tipos de ataques, desde a simulação de papéis e o sequestro de instruções até tentativas de gerar conteúdo tendencioso, juntamente com um amplo espectro de instruções benignas, com conjuntos de dados privados especificamente voltados para correção de erros sutis e classificações errôneas do mundo real. Em um conjunto de testes interno abrangente e não visto, o Sentinel demonstra uma precisão média de 0,987 e um F1-score de 0,980. Além disso, quando avaliado em benchmarks públicos, ele supera consistentemente bases fortes como protectai/deberta-v3-base-prompt-injection-v2. Este trabalho detalha a arquitetura do Sentinel, sua curadoria meticulosa de dados, sua metodologia de treinamento e uma avaliação completa, destacando suas capacidades superiores de detecção.
English
Large Language Models (LLMs) are increasingly powerful but remain vulnerable
to prompt injection attacks, where malicious inputs cause the model to deviate
from its intended instructions. This paper introduces Sentinel, a novel
detection model, qualifire/prompt-injection-sentinel, based on the
\answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced
features and fine-tuning on an extensive and diverse dataset comprising a few
open-source and private collections, Sentinel achieves state-of-the-art
performance. This dataset amalgamates varied attack types, from role-playing
and instruction hijacking to attempts to generate biased content, alongside a
broad spectrum of benign instructions, with private datasets specifically
targeting nuanced error correction and real-world misclassifications. On a
comprehensive, unseen internal test set, Sentinel demonstrates an average
accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on
public benchmarks, it consistently outperforms strong baselines like
protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's
architecture, its meticulous dataset curation, its training methodology, and a
thorough evaluation, highlighting its superior detection capabilities.