Qwen3Guard Technisch Rapport
Qwen3Guard Technical Report
October 16, 2025
Auteurs: Haiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou
cs.AI
Samenvatting
Naarmate grote taalmmodellen (LLM's) steeds krachtiger en breder worden ingezet, wordt het waarborgen van de veiligheid van hun uitvoer steeds kritischer. Bestaande beveiligingsmodellen, hoewel nuttig in statische evaluatieomgevingen, kampen met twee belangrijke beperkingen in real-world toepassingen: (1) ze produceren doorgaans alleen binaire "veilig/onveilig"-labels, die inconsistent kunnen worden geïnterpreteerd bij diverse veiligheidsbeleidsregels, waardoor ze niet in staat zijn om variërende veiligheidstoleranties tussen domeinen te accommoderen; en (2) ze vereisen volledige modeluitvoer voordat ze veiligheidscontroles kunnen uitvoeren, wat ze fundamenteel onverenigbaar maakt met streaming LLM-inferentie, waardoor tijdige interventie tijdens generatie wordt verhinderd en de blootstelling aan schadelijke gedeeltelijke uitvoer wordt vergroot. Om deze uitdagingen aan te pakken, presenteren we Qwen3Guard, een reeks meertalige veiligheidsbeveiligingsmodellen met twee gespecialiseerde varianten: Generative Qwen3Guard, dat veiligheidsclassificatie omzet in een instructievolgende taak om fijnmazige drieklassenbeoordelingen (veilig, controversieel, onveilig) mogelijk te maken; en Stream Qwen3Guard, dat een token-level classificatiekop introduceert voor real-time veiligheidsmonitoring tijdens incrementele tekstgeneratie. Beide varianten zijn beschikbaar in drie formaten (0.6B, 4B en 8B parameters) en ondersteunen tot 119 talen en dialecten, wat een uitgebreide, schaalbare en lage-latentie veiligheidsmoderatie biedt voor wereldwijde LLM-implementaties. Geëvalueerd over Engelse, Chinese en meertalige benchmarks, behaalt Qwen3Guard state-of-the-art prestaties in zowel prompt- als responsveiligheidsclassificatie. Alle modellen zijn vrijgegeven onder de Apache 2.0-licentie voor publiek gebruik.
English
As large language models (LLMs) become more capable and widely used, ensuring
the safety of their outputs is increasingly critical. Existing guardrail
models, though useful in static evaluation settings, face two major limitations
in real-world applications: (1) they typically output only binary "safe/unsafe"
labels, which can be interpreted inconsistently across diverse safety policies,
rendering them incapable of accommodating varying safety tolerances across
domains; and (2) they require complete model outputs before performing safety
checks, making them fundamentally incompatible with streaming LLM inference,
thereby preventing timely intervention during generation and increasing
exposure to harmful partial outputs. To address these challenges, we present
Qwen3Guard, a series of multilingual safety guardrail models with two
specialized variants: Generative Qwen3Guard, which casts safety classification
as an instruction-following task to enable fine-grained tri-class judgments
(safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a
token-level classification head for real-time safety monitoring during
incremental text generation. Both variants are available in three sizes (0.6B,
4B, and 8B parameters) and support up to 119 languages and dialects, providing
comprehensive, scalable, and low-latency safety moderation for global LLM
deployments. Evaluated across English, Chinese, and multilingual benchmarks,
Qwen3Guard achieves state-of-the-art performance in both prompt and response
safety classification. All models are released under the Apache 2.0 license for
public use.