Rapport Technique de Qwen3

Résumé

Dans ce travail, nous présentons Qwen3, la dernière version de la famille de modèles Qwen. Qwen3 comprend une série de grands modèles de langage (LLM) conçus pour améliorer les performances, l'efficacité et les capacités multilingues. La série Qwen3 inclut des modèles à architecture dense et à architecture Mixture-of-Experts (MoE), avec des échelles de paramètres allant de 0,6 à 235 milliards. Une innovation clé de Qwen3 est l'intégration d'un mode de réflexion (pour un raisonnement complexe et multi-étapes) et d'un mode non-réflexion (pour des réponses rapides et contextuelles) dans un cadre unifié. Cela élimine le besoin de basculer entre différents modèles—tels que les modèles optimisés pour le chat (par exemple, GPT-4o) et les modèles dédiés au raisonnement (par exemple, QwQ-32B)—et permet un changement de mode dynamique basé sur les requêtes de l'utilisateur ou les modèles de chat. Par ailleurs, Qwen3 introduit un mécanisme de budget de réflexion, permettant aux utilisateurs d'allouer les ressources de calcul de manière adaptative lors de l'inférence, équilibrant ainsi la latence et les performances en fonction de la complexité de la tâche. De plus, en exploitant les connaissances des modèles phares, nous réduisons considérablement les ressources de calcul nécessaires pour construire des modèles à plus petite échelle, tout en assurant des performances très compétitives. Les évaluations empiriques démontrent que Qwen3 atteint des résultats de pointe sur divers benchmarks, incluant des tâches de génération de code, de raisonnement mathématique, de tâches d'agents, etc., rivalisant avec des modèles MoE plus grands et des modèles propriétaires. Par rapport à son prédécesseur Qwen2.5, Qwen3 étend le support multilingue de 29 à 119 langues et dialectes, améliorant l'accessibilité mondiale grâce à une meilleure compréhension et génération interlangues. Pour faciliter la reproductibilité et la recherche et développement communautaire, tous les modèles Qwen3 sont accessibles publiquement sous licence Apache 2.0.

English

In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.

Rapport Technique de Qwen3

Qwen3 Technical Report

Résumé

Support