Vertrouw op het Typische

Samenvatting

Huidige benaderingen voor LLM-veiligheid steunen fundamenteel op een broos kat-en-muisspel waarbij bekende bedreigingen worden geïdentificeerd en geblokkeerd via guardrails. Wij pleiten voor een nieuwe aanpak: robuuste veiligheid komt niet voort uit het opsommen van wat schadelijk is, maar uit een diepgaand begrip van wat veilig is. Wij introduceren Trust The Typical (T3), een raamwerk dat dit principe operationaliseert door veiligheid te behandelen als een out-of-distribution (OOD) detectieprobleem. T3 leert de distributie van acceptabele prompts in een semantische ruimte en markeert significante afwijkingen als potentiële bedreigingen. In tegenstelling tot eerdere methoden vereist het geen training op schadelijke voorbeelden, maar behaalt het state-of-the-art prestaties op 18 benchmarks voor toxiciteit, haatzaaiende taal, jailbreaking, meertalige schade en overmatige weigering, met een reductie van false positive percentages tot 40x vergeleken met gespecialiseerde veiligheidsmodellen. Een enkel model, uitsluitend getraind op veilige Engelse tekst, transferreert effectief naar diverse domeinen en meer dan 14 talen zonder hertraining. Ten slotte tonen we productiegereedheid aan door een geoptimaliseerde GPU-versie te integreren in vLLM, wat continue bewaking tijdens token-generatie mogelijk maakt met minder dan 6% overhead, zelfs onder dichte evaluatie-intervallen bij grootschalige workloads.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.