Qwen3Guard技術レポート
Qwen3Guard Technical Report
October 16, 2025
著者: Haiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou
cs.AI
要旨
大規模言語モデル(LLM)がより高度かつ広範に使用されるにつれ、その出力の安全性を確保することがますます重要となっている。既存のガードレールモデルは、静的な評価設定では有用であるものの、実世界のアプリケーションにおいては2つの主要な制限に直面している:(1) 一般的に「安全/不安全」という二値ラベルのみを出力するため、多様な安全ポリシー間で一貫した解釈が難しく、ドメイン間で異なる安全許容度に対応できないこと、(2) 安全性チェックを行う前にモデルの完全な出力を必要とするため、ストリーミングLLM推論と根本的に互換性がなく、生成中のタイムリーな介入を妨げ、有害な部分的な出力への曝露を増加させることである。これらの課題に対処するため、我々はQwen3Guardを提案する。これは、2つの専門化されたバリアントを持つ多言語安全性ガードレールモデルシリーズである:Generative Qwen3Guardは、安全性分類を指示追従タスクとして扱い、細粒度の三値判断(安全、議論の余地あり、不安全)を可能にする。Stream Qwen3Guardは、トークンレベルの分類ヘッドを導入し、インクリメンタルなテキスト生成中のリアルタイム安全性監視を実現する。両バリアントは3つのサイズ(0.6B、4B、8Bパラメータ)で利用可能であり、最大119の言語と方言をサポートし、グローバルなLLM展開のための包括的でスケーラブルかつ低遅延の安全性モデレーションを提供する。英語、中国語、多言語ベンチマークで評価された結果、Qwen3Guardはプロンプトとレスポンスの安全性分類において最先端の性能を達成した。すべてのモデルはApache 2.0ライセンスの下で公開され、一般利用が可能である。
English
As large language models (LLMs) become more capable and widely used, ensuring
the safety of their outputs is increasingly critical. Existing guardrail
models, though useful in static evaluation settings, face two major limitations
in real-world applications: (1) they typically output only binary "safe/unsafe"
labels, which can be interpreted inconsistently across diverse safety policies,
rendering them incapable of accommodating varying safety tolerances across
domains; and (2) they require complete model outputs before performing safety
checks, making them fundamentally incompatible with streaming LLM inference,
thereby preventing timely intervention during generation and increasing
exposure to harmful partial outputs. To address these challenges, we present
Qwen3Guard, a series of multilingual safety guardrail models with two
specialized variants: Generative Qwen3Guard, which casts safety classification
as an instruction-following task to enable fine-grained tri-class judgments
(safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a
token-level classification head for real-time safety monitoring during
incremental text generation. Both variants are available in three sizes (0.6B,
4B, and 8B parameters) and support up to 119 languages and dialects, providing
comprehensive, scalable, and low-latency safety moderation for global LLM
deployments. Evaluated across English, Chinese, and multilingual benchmarks,
Qwen3Guard achieves state-of-the-art performance in both prompt and response
safety classification. All models are released under the Apache 2.0 license for
public use.