Rapport Technique de Qwen3
Qwen3 Technical Report
May 14, 2025
Auteurs: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu
cs.AI
Résumé
Dans ce travail, nous présentons Qwen3, la dernière version de la famille de modèles Qwen. Qwen3 comprend une série de grands modèles de langage (LLM) conçus pour améliorer les performances, l'efficacité et les capacités multilingues. La série Qwen3 inclut des modèles à architecture dense et à architecture Mixture-of-Experts (MoE), avec des échelles de paramètres allant de 0,6 à 235 milliards. Une innovation clé de Qwen3 est l'intégration d'un mode de réflexion (pour un raisonnement complexe et multi-étapes) et d'un mode non-réflexion (pour des réponses rapides et contextuelles) dans un cadre unifié. Cela élimine le besoin de basculer entre différents modèles—tels que les modèles optimisés pour le chat (par exemple, GPT-4o) et les modèles dédiés au raisonnement (par exemple, QwQ-32B)—et permet un changement de mode dynamique basé sur les requêtes de l'utilisateur ou les modèles de chat. Par ailleurs, Qwen3 introduit un mécanisme de budget de réflexion, permettant aux utilisateurs d'allouer les ressources de calcul de manière adaptative lors de l'inférence, équilibrant ainsi la latence et les performances en fonction de la complexité de la tâche. De plus, en exploitant les connaissances des modèles phares, nous réduisons considérablement les ressources de calcul nécessaires pour construire des modèles à plus petite échelle, tout en assurant des performances très compétitives. Les évaluations empiriques démontrent que Qwen3 atteint des résultats de pointe sur divers benchmarks, incluant des tâches de génération de code, de raisonnement mathématique, de tâches d'agents, etc., rivalisant avec des modèles MoE plus grands et des modèles propriétaires. Par rapport à son prédécesseur Qwen2.5, Qwen3 étend le support multilingue de 29 à 119 langues et dialectes, améliorant l'accessibilité mondiale grâce à une meilleure compréhension et génération interlangues. Pour faciliter la reproductibilité et la recherche et développement communautaire, tous les modèles Qwen3 sont accessibles publiquement sous licence Apache 2.0.
English
In this work, we present Qwen3, the latest version of the Qwen model family.
Qwen3 comprises a series of large language models (LLMs) designed to advance
performance, efficiency, and multilingual capabilities. The Qwen3 series
includes models of both dense and Mixture-of-Expert (MoE) architectures, with
parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is
the integration of thinking mode (for complex, multi-step reasoning) and
non-thinking mode (for rapid, context-driven responses) into a unified
framework. This eliminates the need to switch between different models--such as
chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g.,
QwQ-32B)--and enables dynamic mode switching based on user queries or chat
templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing
users to allocate computational resources adaptively during inference, thereby
balancing latency and performance based on task complexity. Moreover, by
leveraging the knowledge from the flagship models, we significantly reduce the
computational resources required to build smaller-scale models, while ensuring
their highly competitive performance. Empirical evaluations demonstrate that
Qwen3 achieves state-of-the-art results across diverse benchmarks, including
tasks in code generation, mathematical reasoning, agent tasks, etc.,
competitive against larger MoE models and proprietary models. Compared to its
predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119
languages and dialects, enhancing global accessibility through improved
cross-lingual understanding and generation capabilities. To facilitate
reproducibility and community-driven research and development, all Qwen3 models
are publicly accessible under Apache 2.0.Summary
AI-Generated Summary