Sentinel: Modelo de última generación para protegerse contra inyecciones de prompts
Sentinel: SOTA model to protect against prompt injections
June 5, 2025
Autores: Dror Ivry, Oran Nahum
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son cada vez más potentes, pero siguen siendo vulnerables a los ataques de inyección de prompts, donde entradas maliciosas hacen que el modelo se desvíe de sus instrucciones previstas. Este artículo presenta Sentinel, un novedoso modelo de detección, qualifire/prompt-injection-sentinel, basado en la arquitectura \answerdotai/ModernBERT-large. Al aprovechar las características avanzadas de ModernBERT y su ajuste fino en un extenso y diverso conjunto de datos que incluye algunas colecciones de código abierto y privadas, Sentinel logra un rendimiento de vanguardia. Este conjunto de datos combina diversos tipos de ataques, desde la suplantación de roles y el secuestro de instrucciones hasta intentos de generar contenido sesgado, junto con un amplio espectro de instrucciones benignas, con conjuntos de datos privados que se centran específicamente en la corrección de errores sutiles y clasificaciones erróneas del mundo real. En un conjunto de pruebas internas exhaustivo y no visto previamente, Sentinel demuestra una precisión promedio de 0.987 y un puntaje F1 de 0.980. Además, cuando se evalúa en benchmarks públicos, supera consistentemente líneas de base sólidas como protectai/deberta-v3-base-prompt-injection-v2. Este trabajo detalla la arquitectura de Sentinel, su meticulosa curación de datos, su metodología de entrenamiento y una evaluación exhaustiva, destacando sus capacidades superiores de detección.
English
Large Language Models (LLMs) are increasingly powerful but remain vulnerable
to prompt injection attacks, where malicious inputs cause the model to deviate
from its intended instructions. This paper introduces Sentinel, a novel
detection model, qualifire/prompt-injection-sentinel, based on the
\answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced
features and fine-tuning on an extensive and diverse dataset comprising a few
open-source and private collections, Sentinel achieves state-of-the-art
performance. This dataset amalgamates varied attack types, from role-playing
and instruction hijacking to attempts to generate biased content, alongside a
broad spectrum of benign instructions, with private datasets specifically
targeting nuanced error correction and real-world misclassifications. On a
comprehensive, unseen internal test set, Sentinel demonstrates an average
accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on
public benchmarks, it consistently outperforms strong baselines like
protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's
architecture, its meticulous dataset curation, its training methodology, and a
thorough evaluation, highlighting its superior detection capabilities.