Sentinel: modello SOTA per proteggere dalle iniezioni di prompt

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più potenti ma rimangono vulnerabili agli attacchi di iniezione di prompt, in cui input malevoli inducono il modello a deviare dalle istruzioni previste. Questo articolo introduce Sentinel, un nuovo modello di rilevamento, qualifire/prompt-injection-sentinel, basato sull'architettura \answerdotai/ModernBERT-large. Sfruttando le funzionalità avanzate di ModernBERT e un fine-tuning su un ampio e diversificato dataset che comprende alcune raccolte open-source e private, Sentinel raggiunge prestazioni all'avanguardia. Questo dataset combina vari tipi di attacchi, dal role-playing e il dirottamento delle istruzioni ai tentativi di generare contenuti distorti, insieme a un'ampia gamma di istruzioni benigne, con dataset privati specificamente mirati alla correzione di errori sfumati e a classificazioni errate del mondo reale. Su un set di test interno completo e non visto, Sentinel dimostra un'accuratezza media di 0,987 e un punteggio F1 di 0,980. Inoltre, quando valutato su benchmark pubblici, supera costantemente baseline robuste come protectai/deberta-v3-base-prompt-injection-v2. Questo lavoro descrive in dettaglio l'architettura di Sentinel, la sua accurata cura del dataset, la metodologia di addestramento e una valutazione approfondita, evidenziando le sue superiori capacità di rilevamento.

English

Large Language Models (LLMs) are increasingly powerful but remain vulnerable to prompt injection attacks, where malicious inputs cause the model to deviate from its intended instructions. This paper introduces Sentinel, a novel detection model, qualifire/prompt-injection-sentinel, based on the \answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced features and fine-tuning on an extensive and diverse dataset comprising a few open-source and private collections, Sentinel achieves state-of-the-art performance. This dataset amalgamates varied attack types, from role-playing and instruction hijacking to attempts to generate biased content, alongside a broad spectrum of benign instructions, with private datasets specifically targeting nuanced error correction and real-world misclassifications. On a comprehensive, unseen internal test set, Sentinel demonstrates an average accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on public benchmarks, it consistently outperforms strong baselines like protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's architecture, its meticulous dataset curation, its training methodology, and a thorough evaluation, highlighting its superior detection capabilities.

Sentinel: modello SOTA per proteggere dalle iniezioni di prompt

Sentinel: SOTA model to protect against prompt injections

Abstract

Support