ChatPaper.aiChatPaper

Qwen3 Technischer Bericht

Qwen3 Technical Report

May 14, 2025
Autoren: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu
cs.AI

Zusammenfassung

In dieser Arbeit präsentieren wir Qwen3, die neueste Version der Qwen-Modellfamilie. Qwen3 umfasst eine Reihe von großen Sprachmodellen (LLMs), die entwickelt wurden, um Leistung, Effizienz und mehrsprachige Fähigkeiten voranzutreiben. Die Qwen3-Serie beinhaltet Modelle sowohl mit dichter Architektur als auch mit Mixture-of-Expert (MoE)-Architektur, mit Parametergrößen von 0,6 bis 235 Milliarden. Eine zentrale Innovation in Qwen3 ist die Integration eines Denkmodus (für komplexe, mehrstufige Schlussfolgerungen) und eines Nicht-Denkmodus (für schnelle, kontextgesteuerte Antworten) in ein einheitliches Framework. Dadurch entfällt die Notwendigkeit, zwischen verschiedenen Modellen zu wechseln – wie beispielsweise chat-optimierten Modellen (z.B. GPT-4o) und spezialisierten Schlussfolgerungsmodellen (z.B. QwQ-32B) – und ermöglicht einen dynamischen Moduswechsel basierend auf Benutzeranfragen oder Chat-Vorlagen. Gleichzeitig führt Qwen3 einen Denkbudget-Mechanismus ein, der es Benutzern ermöglicht, Rechenressourcen während der Inferenz adaptiv zuzuweisen und so Latenz und Leistung basierend auf der Aufgabenkomplexität auszubalancieren. Darüber hinaus reduzieren wir durch die Nutzung des Wissens der Flaggschiff-Modelle die erforderlichen Rechenressourcen für den Aufbau kleinerer Modelle erheblich, während wir deren hoch wettbewerbsfähige Leistung sicherstellen. Empirische Auswertungen zeigen, dass Qwen3 state-of-the-art Ergebnisse in diversen Benchmarks erzielt, einschließlich Aufgaben in Code-Generierung, mathematischem Schlussfolgern, Agentenaufgaben usw., und dabei mit größeren MoE-Modellen und proprietären Modellen konkurriert. Im Vergleich zu seinem Vorgänger Qwen2.5 erweitert Qwen3 die mehrsprachige Unterstützung von 29 auf 119 Sprachen und Dialekte und verbessert so die globale Zugänglichkeit durch verbesserte Fähigkeiten im cross-lingualen Verständnis und der Generierung. Um Reproduzierbarkeit und gemeinschaftsgetriebene Forschung und Entwicklung zu fördern, sind alle Qwen3-Modelle öffentlich unter der Apache-2.0-Lizenz zugänglich.
English
In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.

Summary

AI-Generated Summary

PDF1293May 19, 2025