ChatPaper.aiChatPaper

Qwen3 技術レポート

Qwen3 Technical Report

May 14, 2025
著者: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu
cs.AI

要旨

本論文では、Qwenモデルファミリーの最新バージョンであるQwen3を紹介します。Qwen3は、性能、効率性、多言語対応能力を向上させるために設計された一連の大規模言語モデル(LLM)で構成されています。Qwen3シリーズには、密なアーキテクチャとMixture-of-Expert(MoE)アーキテクチャのモデルが含まれており、パラメータ規模は0.6億から2350億まで幅広くカバーしています。Qwen3の主要な革新点は、複雑な多段階推論を行う「思考モード」と、迅速な文脈駆動型応答を行う「非思考モード」を統合フレームワークに組み込んだことです。これにより、チャット最適化モデル(例:GPT-4o)や専用推論モデル(例:QwQ-32B)のような異なるモデル間で切り替える必要がなくなり、ユーザークエリやチャットテンプレートに基づいて動的にモードを切り替えることが可能になります。また、Qwen3では「思考予算メカニズム」を導入し、推論中に計算リソースを適応的に割り当てることで、タスクの複雑さに応じてレイテンシと性能のバランスを取ることができます。さらに、フラッグシップモデルの知識を活用することで、小規模モデルの構築に必要な計算リソースを大幅に削減しつつ、高い競争力のある性能を確保しています。実証評価の結果、Qwen3はコード生成、数学的推論、エージェントタスクなど多様なベンチマークにおいて、より大規模なMoEモデルやプロプライエタリモデルと競合する最先端の結果を達成しています。前身であるQwen2.5と比較して、Qwen3は多言語サポートを29言語から119言語および方言に拡大し、クロスリンガル理解と生成能力の向上を通じてグローバルなアクセシビリティを高めています。再現性とコミュニティ主導の研究開発を促進するため、すべてのQwen3モデルはApache 2.0ライセンスの下で公開されています。
English
In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.
PDF2097May 19, 2025