Sentinel: modello SOTA per proteggere dalle iniezioni di prompt
Sentinel: SOTA model to protect against prompt injections
June 5, 2025
Autori: Dror Ivry, Oran Nahum
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono sempre più potenti ma rimangono vulnerabili agli attacchi di iniezione di prompt, in cui input malevoli inducono il modello a deviare dalle istruzioni previste. Questo articolo introduce Sentinel, un nuovo modello di rilevamento, qualifire/prompt-injection-sentinel, basato sull'architettura \answerdotai/ModernBERT-large. Sfruttando le funzionalità avanzate di ModernBERT e un fine-tuning su un ampio e diversificato dataset che comprende alcune raccolte open-source e private, Sentinel raggiunge prestazioni all'avanguardia. Questo dataset combina vari tipi di attacchi, dal role-playing e il dirottamento delle istruzioni ai tentativi di generare contenuti distorti, insieme a un'ampia gamma di istruzioni benigne, con dataset privati specificamente mirati alla correzione di errori sfumati e a classificazioni errate del mondo reale. Su un set di test interno completo e non visto, Sentinel dimostra un'accuratezza media di 0,987 e un punteggio F1 di 0,980. Inoltre, quando valutato su benchmark pubblici, supera costantemente baseline robuste come protectai/deberta-v3-base-prompt-injection-v2. Questo lavoro descrive in dettaglio l'architettura di Sentinel, la sua accurata cura del dataset, la metodologia di addestramento e una valutazione approfondita, evidenziando le sue superiori capacità di rilevamento.
English
Large Language Models (LLMs) are increasingly powerful but remain vulnerable
to prompt injection attacks, where malicious inputs cause the model to deviate
from its intended instructions. This paper introduces Sentinel, a novel
detection model, qualifire/prompt-injection-sentinel, based on the
\answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced
features and fine-tuning on an extensive and diverse dataset comprising a few
open-source and private collections, Sentinel achieves state-of-the-art
performance. This dataset amalgamates varied attack types, from role-playing
and instruction hijacking to attempts to generate biased content, alongside a
broad spectrum of benign instructions, with private datasets specifically
targeting nuanced error correction and real-world misclassifications. On a
comprehensive, unseen internal test set, Sentinel demonstrates an average
accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on
public benchmarks, it consistently outperforms strong baselines like
protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's
architecture, its meticulous dataset curation, its training methodology, and a
thorough evaluation, highlighting its superior detection capabilities.