Relatório Técnico do Qwen3Guard

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) se tornam mais capazes e amplamente utilizados, garantir a segurança de suas saídas é cada vez mais crítico. Os modelos de proteção existentes, embora úteis em configurações de avaliação estática, enfrentam duas grandes limitações em aplicações do mundo real: (1) eles normalmente produzem apenas rótulos binários "seguro/inseguro", que podem ser interpretados de forma inconsistente em diversas políticas de segurança, tornando-os incapazes de acomodar tolerâncias de segurança variáveis entre domínios; e (2) eles exigem saídas completas do modelo antes de realizar verificações de segurança, tornando-os fundamentalmente incompatíveis com a inferência de LLMs em streaming, impedindo intervenções oportunas durante a geração e aumentando a exposição a saídas parciais prejudiciais. Para enfrentar esses desafios, apresentamos o Qwen3Guard, uma série de modelos de proteção de segurança multilíngues com duas variantes especializadas: o Generative Qwen3Guard, que transforma a classificação de segurança em uma tarefa de seguir instruções para permitir julgamentos de três classes (seguro, controverso, inseguro); e o Stream Qwen3Guard, que introduz um cabeçalho de classificação em nível de token para monitoramento de segurança em tempo real durante a geração incremental de texto. Ambas as variantes estão disponíveis em três tamanhos (0,6B, 4B e 8B parâmetros) e suportam até 119 idiomas e dialetos, fornecendo moderação de segurança abrangente, escalável e de baixa latência para implantações globais de LLMs. Avaliados em benchmarks em inglês, chinês e multilíngues, o Qwen3Guard alcança desempenho de ponta tanto na classificação de segurança de prompts quanto de respostas. Todos os modelos são liberados sob a licença Apache 2.0 para uso público.

English

As large language models (LLMs) become more capable and widely used, ensuring the safety of their outputs is increasingly critical. Existing guardrail models, though useful in static evaluation settings, face two major limitations in real-world applications: (1) they typically output only binary "safe/unsafe" labels, which can be interpreted inconsistently across diverse safety policies, rendering them incapable of accommodating varying safety tolerances across domains; and (2) they require complete model outputs before performing safety checks, making them fundamentally incompatible with streaming LLM inference, thereby preventing timely intervention during generation and increasing exposure to harmful partial outputs. To address these challenges, we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments. Evaluated across English, Chinese, and multilingual benchmarks, Qwen3Guard achieves state-of-the-art performance in both prompt and response safety classification. All models are released under the Apache 2.0 license for public use.

Relatório Técnico do Qwen3Guard

Qwen3Guard Technical Report

Resumo

Support