Fiez-vous au typique.

Résumé

Les approches actuelles de sécurité des LLM reposent fondamentalement sur un jeu précaire du chat et de la souris, consistant à identifier et bloquer les menaces connues via des garde-fous. Nous plaidons pour une nouvelle approche : une sécurité robuste ne provient pas de l'énumération de ce qui est nuisible, mais d'une compréhension profonde de ce qui est sûr. Nous présentons Trust The Typical (T3), un cadre qui opérationnalise ce principe en traitant la sécurité comme un problème de détection de données hors distribution (OOD). T3 apprend la distribution des invites acceptables dans un espace sémantique et signale toute déviation significative comme une menace potentielle. Contrairement aux méthodes antérieures, il ne nécessite aucun entraînement sur des exemples nuisibles, tout en atteignant des performances de pointe sur 18 bancs d'essai couvrant la toxicité, les discours haineux, le jailbreaking, les préjudices multilingues et la sur-réfutation, réduisant les taux de faux positifs jusqu'à 40 fois par rapport aux modèles de sécurité spécialisés. Un modèle unique, entraîné uniquement sur du texte anglais sûr, se transpose efficacement à divers domaines et à plus de 14 langues sans réentraînement. Enfin, nous démontrons sa maturité pour la production en intégrant une version optimisée pour GPU dans vLLM, permettant un garde-fou continu pendant la génération de tokens avec une surcharge inférieure à 6 %, même sous des intervalles d'évaluation denses sur des charges de travail à grande échelle.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.