Vertraue dem Typischen

Zusammenfassung

Aktuelle Ansätze zur LLM-Sicherheit basieren grundlegend auf einem brüchigen Katz-und-Maus-Spiel, bei dem bekannte Bedrohungen durch Guardrails identifiziert und blockiert werden. Wir plädieren für einen neuen Ansatz: Robuste Sicherheit ergibt sich nicht aus der Aufzählung schädlicher Inhalte, sondern aus einem tiefen Verständnis dessen, was sicher ist. Wir stellen Trust The Typical (T3) vor, ein Framework, das dieses Prinzip operationalisiert, indem es Sicherheit als ein Problem der Out-of-Distribution (OOD)-Erkennung behandelt. T3 lernt die Verteilung akzeptabler Prompts in einem semantischen Raum und markiert jede signifikante Abweichung als potenzielle Bedrohung. Im Gegensatz zu früheren Methoden erfordert es kein Training an schädlichen Beispielen, erzielt jedoch state-of-the-art Leistung über 18 Benchmarks hinweg, die Toxizität, Hassrede, Jailbreaking, mehrsprachige Schäden und Over-Refusal abdecken, und reduziert die False-Positive-Rate um bis zum 40-fachen im Vergleich zu spezialisierten Sicherheitsmodellen. Ein einziges Modell, das nur mit sicheren englischen Texten trainiert wurde, überträgt sich effektiv auf verschiedene Domänen und über 14 Sprachen hinweg ohne Neutraining. Abschließend demonstrieren wir die Produktionsreife durch die Integration einer GPU-optimierten Version in vLLM, die eine kontinuierliche Überwachung während der Token-Generierung mit weniger als 6% Overhead ermöglicht, selbst unter dichten Evaluierungsintervallen bei großskaligen Workloads.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.