Доверяй типичному

Аннотация

Современные подходы к обеспечению безопасности больших языковых моделей (LLM) фундаментально основаны на хрупкой игре "кошки-мышки" по выявлению и блокировке известных угроз с помощью защитных механизмов. Мы предлагаем новый подход: надежная безопасность достигается не за счет перечисления вредоносного контента, а за счет глубокого понимания того, что является безопасным. Мы представляем Trust The Typical (T3) — концепцию, которая реализует этот принцип, рассматривая безопасность как проблему обнаружения выбросов (out-of-distribution, OOD). T3 изучает распределение допустимых промптов в семантическом пространстве и помечает любое значительное отклонение как потенциальную угрозу. В отличие от предыдущих методов, она не требует обучения на вредоносных примерах, но при этом демонстрирует наилучшие результаты в 18 тестах, охватывающих токсичность, язык вражды, взлом моделей, многоязычные угрозы и избыточный отказ, снижая уровень ложных срабатываний до 40 раз по сравнению со специализированными моделями безопасности. Единая модель, обученная только на безопасных английских текстах, эффективно адаптируется к различным доменам и более чем 14 языкам без переобучения. Наконец, мы демонстрируем готовность к промышленному внедрению, интегрировав GPU-оптимизированную версию в vLLM, что позволяет осуществлять непрерывный защитный контроль во время генерации токенов с накладными расходами менее 6% даже при интенсивных интервалах оценки в крупномасштабных рабочих нагрузках.

English

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.