Qwen3Guard Technischer Bericht

papers.abstract

Da große Sprachmodelle (LLMs) immer leistungsfähiger und weit verbreiteter werden, wird die Sicherheit ihrer Ausgaben zunehmend kritisch. Bestehende Sicherheitsmodelle, obwohl nützlich in statischen Evaluierungsszenarien, weisen zwei wesentliche Einschränkungen in realen Anwendungen auf: (1) sie geben typischerweise nur binäre „sicher/unsicher“-Labels aus, die je nach unterschiedlichen Sicherheitsrichtlinien inkonsistent interpretiert werden können, wodurch sie nicht in der Lage sind, variierende Sicherheitstoleranzen über verschiedene Domänen hinweg zu berücksichtigen; und (2) sie benötigen vollständige Modellausgaben, bevor sie Sicherheitsprüfungen durchführen können, was sie grundsätzlich inkompatibel mit dem Streaming-Inferenz von LLMs macht und dadurch rechtzeitige Eingriffe während der Generierung verhindert sowie die Exposition gegenüber schädlichen Teilausgaben erhöht. Um diese Herausforderungen zu bewältigen, präsentieren wir Qwen3Guard, eine Reihe mehrsprachiger Sicherheitsmodelle mit zwei spezialisierten Varianten: Generative Qwen3Guard, das die Sicherheitsklassifizierung als eine aufgabenbasierte Instruktionsfolge behandelt, um feinkörnige Drei-Klassen-Urteile (sicher, kontrovers, unsicher) zu ermöglichen; und Stream Qwen3Guard, das einen Token-Level-Klassifizierungskopf für die Echtzeit-Sicherheitsüberwachung während der inkrementellen Textgenerierung einführt. Beide Varianten sind in drei Größen (0,6B, 4B und 8B Parameter) verfügbar und unterstützen bis zu 119 Sprachen und Dialekte, was eine umfassende, skalierbare und latenzarme Sicherheitsmoderation für globale LLM-Bereitstellungen bietet. Evaluierungen über englische, chinesische und mehrsprachige Benchmarks hinweg zeigen, dass Qwen3Guard in der Klassifizierung der Sicherheit von Prompts und Antworten Spitzenleistungen erzielt. Alle Modelle werden unter der Apache-2.0-Lizenz für die öffentliche Nutzung freigegeben.

English

As large language models (LLMs) become more capable and widely used, ensuring the safety of their outputs is increasingly critical. Existing guardrail models, though useful in static evaluation settings, face two major limitations in real-world applications: (1) they typically output only binary "safe/unsafe" labels, which can be interpreted inconsistently across diverse safety policies, rendering them incapable of accommodating varying safety tolerances across domains; and (2) they require complete model outputs before performing safety checks, making them fundamentally incompatible with streaming LLM inference, thereby preventing timely intervention during generation and increasing exposure to harmful partial outputs. To address these challenges, we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments. Evaluated across English, Chinese, and multilingual benchmarks, Qwen3Guard achieves state-of-the-art performance in both prompt and response safety classification. All models are released under the Apache 2.0 license for public use.

Qwen3Guard Technischer Bericht

Qwen3Guard Technical Report

papers.abstract

Support