ChatPaper.aiChatPaper

Qwen3Guard 기술 보고서

Qwen3Guard Technical Report

October 16, 2025
저자: Haiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou
cs.AI

초록

대규모 언어 모델(LLM)이 점점 더 강력해지고 널리 사용됨에 따라, 그 출력물의 안전성을 보장하는 것이 점점 더 중요해지고 있습니다. 기존의 가드레일 모델은 정적 평가 환경에서는 유용하지만, 실제 응용에서는 두 가지 주요 한계에 직면합니다: (1) 일반적으로 이진 "안전/위험" 레이블만 출력하여 다양한 안전 정책 간에 일관되지 않게 해석될 수 있어, 도메인 간 다양한 안전 허용치를 수용할 수 없으며; (2) 안전 검사를 수행하기 전에 완전한 모델 출력이 필요하므로, 스트리밍 LLM 추론과 근본적으로 호환되지 않아 생성 중에 적시에 개입할 수 없고, 유해한 부분 출력에 대한 노출을 증가시킵니다. 이러한 문제를 해결하기 위해, 우리는 Qwen3Guard를 제안합니다. 이는 두 가지 특화된 변종을 가진 다국어 안전 가드레일 모델 시리즈입니다: 생성형 Qwen3Guard는 안전 분류를 명령 수행 작업으로 변환하여 세분화된 삼중 분류(안전, 논란, 위험)를 가능하게 하며; 스트림 Qwen3Guard는 점진적 텍스트 생성 중 실시간 안전 모니터링을 위한 토큰 수준 분류 헤드를 도입합니다. 두 변종 모두 세 가지 크기(0.6B, 4B, 8B 파라미터)로 제공되며 최대 119개 언어와 방언을 지원하여, 글로벌 LLM 배포를 위한 포괄적이고 확장 가능하며 저지연의 안전 조정을 제공합니다. 영어, 중국어 및 다국어 벤치마크에서 평가된 Qwen3Guard는 프롬프트 및 응답 안전 분류에서 최첨단 성능을 달성합니다. 모든 모델은 Apache 2.0 라이선스 하에 공개되어 누구나 사용할 수 있습니다.
English
As large language models (LLMs) become more capable and widely used, ensuring the safety of their outputs is increasingly critical. Existing guardrail models, though useful in static evaluation settings, face two major limitations in real-world applications: (1) they typically output only binary "safe/unsafe" labels, which can be interpreted inconsistently across diverse safety policies, rendering them incapable of accommodating varying safety tolerances across domains; and (2) they require complete model outputs before performing safety checks, making them fundamentally incompatible with streaming LLM inference, thereby preventing timely intervention during generation and increasing exposure to harmful partial outputs. To address these challenges, we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments. Evaluated across English, Chinese, and multilingual benchmarks, Qwen3Guard achieves state-of-the-art performance in both prompt and response safety classification. All models are released under the Apache 2.0 license for public use.
PDF122October 17, 2025