Sentinel : Modèle SOTA pour se protéger contre les injections de prompts
Sentinel: SOTA model to protect against prompt injections
June 5, 2025
Auteurs: Dror Ivry, Oran Nahum
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) deviennent de plus en plus puissants mais restent vulnérables aux attaques par injection de prompts, où des entrées malveillantes amènent le modèle à s'écarter de ses instructions prévues. Cet article présente Sentinel, un nouveau modèle de détection, qualifire/prompt-injection-sentinel, basé sur l'architecture \answerdotai/ModernBERT-large. En exploitant les fonctionnalités avancées de ModernBERT et en affinant le modèle sur un vaste et diversifié ensemble de données comprenant quelques collections open-source et privées, Sentinel atteint des performances de pointe. Cet ensemble de données regroupe divers types d'attaques, allant du détournement de rôle et d'instructions aux tentatives de génération de contenu biaisé, ainsi qu'un large éventail d'instructions bénignes, avec des ensembles de données privés ciblant spécifiquement la correction d'erreurs nuancées et les erreurs de classification en conditions réelles. Sur un ensemble de test interne complet et inédit, Sentinel démontre une précision moyenne de 0,987 et un score F1 de 0,980. De plus, lorsqu'il est évalué sur des benchmarks publics, il surpasse systématiquement des modèles de référence solides comme protectai/deberta-v3-base-prompt-injection-v2. Ce travail détaille l'architecture de Sentinel, la curation méticuleuse de son ensemble de données, sa méthodologie d'entraînement, et une évaluation approfondie, mettant en avant ses capacités de détection supérieures.
English
Large Language Models (LLMs) are increasingly powerful but remain vulnerable
to prompt injection attacks, where malicious inputs cause the model to deviate
from its intended instructions. This paper introduces Sentinel, a novel
detection model, qualifire/prompt-injection-sentinel, based on the
\answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced
features and fine-tuning on an extensive and diverse dataset comprising a few
open-source and private collections, Sentinel achieves state-of-the-art
performance. This dataset amalgamates varied attack types, from role-playing
and instruction hijacking to attempts to generate biased content, alongside a
broad spectrum of benign instructions, with private datasets specifically
targeting nuanced error correction and real-world misclassifications. On a
comprehensive, unseen internal test set, Sentinel demonstrates an average
accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on
public benchmarks, it consistently outperforms strong baselines like
protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's
architecture, its meticulous dataset curation, its training methodology, and a
thorough evaluation, highlighting its superior detection capabilities.