Informe Técnico de Qwen3
Qwen3 Technical Report
May 14, 2025
Autores: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu
cs.AI
Resumen
En este trabajo, presentamos Qwen3, la última versión de la familia de modelos Qwen. Qwen3 comprende una serie de modelos de lenguaje de gran escala (LLMs) diseñados para mejorar el rendimiento, la eficiencia y las capacidades multilingües. La serie Qwen3 incluye modelos tanto de arquitectura densa como de Mixture-of-Expert (MoE), con escalas de parámetros que van desde 0.6 hasta 235 mil millones. Una innovación clave en Qwen3 es la integración del modo de pensamiento (para razonamiento complejo y de múltiples pasos) y el modo no pensante (para respuestas rápidas y basadas en contexto) en un marco unificado. Esto elimina la necesidad de cambiar entre diferentes modelos—como modelos optimizados para chat (por ejemplo, GPT-4o) y modelos dedicados al razonamiento (por ejemplo, QwQ-32B)—y permite el cambio dinámico de modo según las consultas del usuario o las plantillas de chat. Además, Qwen3 introduce un mecanismo de presupuesto de pensamiento, que permite a los usuarios asignar recursos computacionales de manera adaptativa durante la inferencia, equilibrando así la latencia y el rendimiento según la complejidad de la tarea. Asimismo, al aprovechar el conocimiento de los modelos principales, reducimos significativamente los recursos computacionales necesarios para construir modelos a menor escala, asegurando un rendimiento altamente competitivo. Las evaluaciones empíricas demuestran que Qwen3 logra resultados de vanguardia en diversos benchmarks, incluyendo tareas de generación de código, razonamiento matemático, tareas de agentes, etc., compitiendo con modelos MoE más grandes y modelos propietarios. En comparación con su predecesor Qwen2.5, Qwen3 amplía el soporte multilingüe de 29 a 119 idiomas y dialectos, mejorando la accesibilidad global mediante capacidades mejoradas de comprensión y generación translingüística. Para facilitar la reproducibilidad y la investigación y desarrollo impulsados por la comunidad, todos los modelos Qwen3 están disponibles públicamente bajo la licencia Apache 2.0.
English
In this work, we present Qwen3, the latest version of the Qwen model family.
Qwen3 comprises a series of large language models (LLMs) designed to advance
performance, efficiency, and multilingual capabilities. The Qwen3 series
includes models of both dense and Mixture-of-Expert (MoE) architectures, with
parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is
the integration of thinking mode (for complex, multi-step reasoning) and
non-thinking mode (for rapid, context-driven responses) into a unified
framework. This eliminates the need to switch between different models--such as
chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g.,
QwQ-32B)--and enables dynamic mode switching based on user queries or chat
templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing
users to allocate computational resources adaptively during inference, thereby
balancing latency and performance based on task complexity. Moreover, by
leveraging the knowledge from the flagship models, we significantly reduce the
computational resources required to build smaller-scale models, while ensuring
their highly competitive performance. Empirical evaluations demonstrate that
Qwen3 achieves state-of-the-art results across diverse benchmarks, including
tasks in code generation, mathematical reasoning, agent tasks, etc.,
competitive against larger MoE models and proprietary models. Compared to its
predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119
languages and dialects, enhancing global accessibility through improved
cross-lingual understanding and generation capabilities. To facilitate
reproducibility and community-driven research and development, all Qwen3 models
are publicly accessible under Apache 2.0.Summary
AI-Generated Summary