Rapport technique de Qwen3Guard
Qwen3Guard Technical Report
October 16, 2025
papers.authors: Haiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou
cs.AI
papers.abstract
À mesure que les grands modèles de langage (LLMs) deviennent plus performants et largement utilisés, garantir la sécurité de leurs sorties devient de plus en plus crucial. Les modèles de garde-fous existants, bien qu'utiles dans des contextes d'évaluation statique, présentent deux limitations majeures dans les applications réelles : (1) ils produisent généralement uniquement des étiquettes binaires « sûr/non sûr », qui peuvent être interprétées de manière incohérente selon les différentes politiques de sécurité, les rendant incapables de s'adapter aux tolérances de sécurité variables selon les domaines ; et (2) ils nécessitent des sorties complètes du modèle avant d'effectuer des vérifications de sécurité, ce qui les rend fondamentalement incompatibles avec l'inférence en flux continu des LLMs, empêchant ainsi une intervention en temps réel pendant la génération et augmentant l'exposition à des sorties partielles nuisibles. Pour relever ces défis, nous présentons Qwen3Guard, une série de modèles de garde-fous multilingues avec deux variantes spécialisées : Generative Qwen3Guard, qui transforme la classification de sécurité en une tâche de suivi d'instructions pour permettre des jugements tri-classes granulaires (sûr, controversé, non sûr) ; et Stream Qwen3Guard, qui introduit une tête de classification au niveau des tokens pour une surveillance de sécurité en temps réel pendant la génération incrémentielle de texte. Les deux variantes sont disponibles en trois tailles (0,6B, 4B et 8B paramètres) et prennent en charge jusqu'à 119 langues et dialectes, offrant une modération de sécurité complète, évolutive et à faible latence pour les déploiements mondiaux de LLMs. Évalué sur des benchmarks en anglais, chinois et multilingues, Qwen3Guard atteint des performances de pointe dans la classification de sécurité des prompts et des réponses. Tous les modèles sont publiés sous licence Apache 2.0 pour un usage public.
English
As large language models (LLMs) become more capable and widely used, ensuring
the safety of their outputs is increasingly critical. Existing guardrail
models, though useful in static evaluation settings, face two major limitations
in real-world applications: (1) they typically output only binary "safe/unsafe"
labels, which can be interpreted inconsistently across diverse safety policies,
rendering them incapable of accommodating varying safety tolerances across
domains; and (2) they require complete model outputs before performing safety
checks, making them fundamentally incompatible with streaming LLM inference,
thereby preventing timely intervention during generation and increasing
exposure to harmful partial outputs. To address these challenges, we present
Qwen3Guard, a series of multilingual safety guardrail models with two
specialized variants: Generative Qwen3Guard, which casts safety classification
as an instruction-following task to enable fine-grained tri-class judgments
(safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a
token-level classification head for real-time safety monitoring during
incremental text generation. Both variants are available in three sizes (0.6B,
4B, and 8B parameters) and support up to 119 languages and dialects, providing
comprehensive, scalable, and low-latency safety moderation for global LLM
deployments. Evaluated across English, Chinese, and multilingual benchmarks,
Qwen3Guard achieves state-of-the-art performance in both prompt and response
safety classification. All models are released under the Apache 2.0 license for
public use.