ChatPaper.aiChatPaper

Rapporto Tecnico di Qwen3Guard

Qwen3Guard Technical Report

October 16, 2025
Autori: Haiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano più capaci e ampiamente utilizzati, garantire la sicurezza dei loro output è sempre più cruciale. I modelli di protezione esistenti, sebbene utili in contesti di valutazione statica, presentano due principali limitazioni nelle applicazioni reali: (1) in genere producono solo etichette binarie "sicuro/non sicuro", che possono essere interpretate in modo incoerente tra diverse politiche di sicurezza, rendendoli incapaci di adattarsi a tolleranze di sicurezza variabili tra i domini; e (2) richiedono output completi del modello prima di eseguire controlli di sicurezza, rendendoli fondamentalmente incompatibili con l'inferenza in streaming degli LLM, impedendo così un intervento tempestivo durante la generazione e aumentando l'esposizione a output parziali dannosi. Per affrontare queste sfide, presentiamo Qwen3Guard, una serie di modelli di protezione multilingue con due varianti specializzate: Generative Qwen3Guard, che trasforma la classificazione della sicurezza in un compito di esecuzione di istruzioni per consentire giudizi tri-classe granulari (sicuro, controverso, non sicuro); e Stream Qwen3Guard, che introduce una testa di classificazione a livello di token per il monitoraggio della sicurezza in tempo reale durante la generazione incrementale del testo. Entrambe le varianti sono disponibili in tre dimensioni (0,6B, 4B e 8B parametri) e supportano fino a 119 lingue e dialetti, fornendo una moderazione della sicurezza completa, scalabile e a bassa latenza per le implementazioni globali degli LLM. Valutato su benchmark in inglese, cinese e multilingue, Qwen3Guard raggiunge prestazioni all'avanguardia sia nella classificazione della sicurezza dei prompt che delle risposte. Tutti i modelli sono rilasciati sotto licenza Apache 2.0 per uso pubblico.
English
As large language models (LLMs) become more capable and widely used, ensuring the safety of their outputs is increasingly critical. Existing guardrail models, though useful in static evaluation settings, face two major limitations in real-world applications: (1) they typically output only binary "safe/unsafe" labels, which can be interpreted inconsistently across diverse safety policies, rendering them incapable of accommodating varying safety tolerances across domains; and (2) they require complete model outputs before performing safety checks, making them fundamentally incompatible with streaming LLM inference, thereby preventing timely intervention during generation and increasing exposure to harmful partial outputs. To address these challenges, we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments. Evaluated across English, Chinese, and multilingual benchmarks, Qwen3Guard achieves state-of-the-art performance in both prompt and response safety classification. All models are released under the Apache 2.0 license for public use.
PDF122October 17, 2025