Informe Técnico de Qwen3Guard
Qwen3Guard Technical Report
October 16, 2025
Autores: Haiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se vuelven más capaces y ampliamente utilizados, garantizar la seguridad de sus resultados es cada vez más crítico. Los modelos de protección existentes, aunque útiles en entornos de evaluación estática, enfrentan dos limitaciones principales en aplicaciones del mundo real: (1) generalmente producen únicamente etiquetas binarias de "seguro/no seguro", las cuales pueden interpretarse de manera inconsistente en diversas políticas de seguridad, lo que las hace incapaces de adaptarse a diferentes tolerancias de seguridad en distintos dominios; y (2) requieren resultados completos del modelo antes de realizar verificaciones de seguridad, lo que las hace fundamentalmente incompatibles con la inferencia de LLM en flujo continuo, impidiendo así una intervención oportuna durante la generación y aumentando la exposición a resultados parciales dañinos. Para abordar estos desafíos, presentamos Qwen3Guard, una serie de modelos de protección de seguridad multilingüe con dos variantes especializadas: Generative Qwen3Guard, que convierte la clasificación de seguridad en una tarea de seguimiento de instrucciones para permitir juicios de tres clases (seguro, controvertido, no seguro); y Stream Qwen3Guard, que introduce un cabezal de clasificación a nivel de token para el monitoreo de seguridad en tiempo real durante la generación incremental de texto. Ambas variantes están disponibles en tres tamaños (0.6B, 4B y 8B parámetros) y admiten hasta 119 idiomas y dialectos, proporcionando una moderación de seguridad integral, escalable y de baja latencia para despliegues globales de LLM. Evaluado en puntos de referencia en inglés, chino y multilingües, Qwen3Guard alcanza un rendimiento de vanguardia tanto en la clasificación de seguridad de entradas como de respuestas. Todos los modelos se publican bajo la licencia Apache 2.0 para uso público.
English
As large language models (LLMs) become more capable and widely used, ensuring
the safety of their outputs is increasingly critical. Existing guardrail
models, though useful in static evaluation settings, face two major limitations
in real-world applications: (1) they typically output only binary "safe/unsafe"
labels, which can be interpreted inconsistently across diverse safety policies,
rendering them incapable of accommodating varying safety tolerances across
domains; and (2) they require complete model outputs before performing safety
checks, making them fundamentally incompatible with streaming LLM inference,
thereby preventing timely intervention during generation and increasing
exposure to harmful partial outputs. To address these challenges, we present
Qwen3Guard, a series of multilingual safety guardrail models with two
specialized variants: Generative Qwen3Guard, which casts safety classification
as an instruction-following task to enable fine-grained tri-class judgments
(safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a
token-level classification head for real-time safety monitoring during
incremental text generation. Both variants are available in three sizes (0.6B,
4B, and 8B parameters) and support up to 119 languages and dialects, providing
comprehensive, scalable, and low-latency safety moderation for global LLM
deployments. Evaluated across English, Chinese, and multilingual benchmarks,
Qwen3Guard achieves state-of-the-art performance in both prompt and response
safety classification. All models are released under the Apache 2.0 license for
public use.