Confía en lo típico.

Resumen

Los enfoques actuales de seguridad en LLM se basan fundamentalmente en un frágil juego del gato y el ratón de identificar y bloquear amenazas conocidas mediante barreras de protección. Sostenemos que se necesita un nuevo enfoque: la seguridad robusta no proviene de enumerar lo que es dañino, sino de comprender profundamente lo que es seguro. Presentamos Trust The Typical (T3), un marco que operacionaliza este principio tratando la seguridad como un problema de detección de datos fuera de distribución (Out-of-Distribution, OOD). T3 aprende la distribución de prompts aceptables en un espacio semántico y marca cualquier desviación significativa como una amenaza potencial. A diferencia de métodos anteriores, no requiere entrenamiento con ejemplos dañinos y, sin embargo, logra un rendimiento de vanguardia en 18 puntos de referencia que abarcan toxicidad, discurso de odio, jailbreaking, daños multilingües y sobre-rechazo, reduciendo las tasas de falsos positivos hasta en 40 veces en comparación con modelos de seguridad especializados. Un único modelo entrenado únicamente con texto seguro en inglés se transfiere eficazmente a diversos dominios y a más de 14 idiomas sin necesidad de reentrenamiento. Finalmente, demostramos su preparación para entornos productivos integrando una versión optimizada para GPU en vLLM, lo que permite una protección continua durante la generación de tokens con una sobrecarga inferior al 6%, incluso bajo intervalos de evaluación densos en cargas de trabajo a gran escala.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.