Fidati del Tipico

Abstract

Gli approcci attuali alla sicurezza degli LLM si basano fondamentalmente su un fragile gioco del gatto e del topo, che consiste nell'identificare e bloccare minacce note tramite guardrail. Sosteniamo l'adozione di un approccio innovativo: una sicurezza robusta non deriva dall'enumerare ciò che è dannoso, ma dalla comprensione profonda di ciò che è sicuro. Introduciamo Trust The Typical (T3), un framework che concretizza questo principio trattando la sicurezza come un problema di rilevamento di dati fuori distribuzione (Out-of-Distribution, OOD). T3 apprende la distribuzione dei prompt accettabili in uno spazio semantico e segnala qualsiasi deviazione significativa come una potenziale minaccia. A differenza dei metodi precedenti, non richiede addestramento su esempi dannosi, eppure raggiunge prestazioni allo stato dell'arte su 18 benchmark che coprono tossicità, discorsi d'odio, jailbreaking, danni multilingue e over-refusal, riducendo i tassi di falsi positivi fino a 40 volte rispetto a modelli di sicurezza specializzati. Un singolo modello addestrato solo su testo inglese sicuro si trasferisce efficacemente a domini diversi e oltre 14 lingue senza bisogno di riaddestramento. Infine, dimostriamo l'idoneità per la produzione integrando una versione ottimizzata per GPU in vLLM, consentendo una protezione continua durante la generazione di token con un overhead inferiore al 6% anche sotto intervalli di valutazione densi su carichi di lavoro su larga scala.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.