Confie no Típico

Resumo

As abordagens atuais para segurança de LLM dependem fundamentalmente de um frágil jogo de gato e rato de identificar e bloquear ameaças conhecidas por meio de guardrails. Argumentamos por uma nova abordagem: a segurança robusta vem não de enumerar o que é prejudicial, mas de compreender profundamente o que é seguro. Apresentamos o Trust The Typical (T3), uma estrutura que operacionaliza este princípio tratando a segurança como um problema de detecção fora da distribuição (OOD). O T3 aprende a distribuição de prompts aceitáveis em um espaço semântico e sinaliza qualquer desvio significativo como uma ameaça potencial. Diferente de métodos anteriores, não requer treinamento em exemplos prejudiciais, mas ainda assim alcança desempenho de última geração em 18 benchmarks abrangendo toxicidade, discurso de ódio, jailbreaking, danos multilíngues e super-recusa, reduzindo as taxas de falsos positivos em até 40 vezes em relação a modelos de segurança especializados. Um único modelo treinado apenas em texto seguro em inglês transfere-se eficazmente para diversos domínios e mais de 14 idiomas sem retreinamento. Por fim, demonstramos prontidão para produção integrando uma versão otimizada para GPU no vLLM, permitindo a guardrail contínua durante a geração de tokens com menos de 6% de sobrecarga, mesmo sob intervalos de avaliação densa em cargas de trabalho em larga escala.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.