Qwen3 Technischer BerichtQwen3 Technical Report
In dieser Arbeit präsentieren wir Qwen3, die neueste Version der Qwen-Modellfamilie. Qwen3 umfasst eine Reihe von großen Sprachmodellen (LLMs), die entwickelt wurden, um Leistung, Effizienz und mehrsprachige Fähigkeiten voranzutreiben. Die Qwen3-Serie beinhaltet Modelle sowohl mit dichter Architektur als auch mit Mixture-of-Expert (MoE)-Architektur, mit Parametergrößen von 0,6 bis 235 Milliarden. Eine zentrale Innovation in Qwen3 ist die Integration eines Denkmodus (für komplexe, mehrstufige Schlussfolgerungen) und eines Nicht-Denkmodus (für schnelle, kontextgesteuerte Antworten) in ein einheitliches Framework. Dadurch entfällt die Notwendigkeit, zwischen verschiedenen Modellen zu wechseln – wie beispielsweise chat-optimierten Modellen (z.B. GPT-4o) und spezialisierten Schlussfolgerungsmodellen (z.B. QwQ-32B) – und ermöglicht einen dynamischen Moduswechsel basierend auf Benutzeranfragen oder Chat-Vorlagen. Gleichzeitig führt Qwen3 einen Denkbudget-Mechanismus ein, der es Benutzern ermöglicht, Rechenressourcen während der Inferenz adaptiv zuzuweisen und so Latenz und Leistung basierend auf der Aufgabenkomplexität auszubalancieren. Darüber hinaus reduzieren wir durch die Nutzung des Wissens der Flaggschiff-Modelle die erforderlichen Rechenressourcen für den Aufbau kleinerer Modelle erheblich, während wir deren hoch wettbewerbsfähige Leistung sicherstellen. Empirische Auswertungen zeigen, dass Qwen3 state-of-the-art Ergebnisse in diversen Benchmarks erzielt, einschließlich Aufgaben in Code-Generierung, mathematischem Schlussfolgern, Agentenaufgaben usw., und dabei mit größeren MoE-Modellen und proprietären Modellen konkurriert. Im Vergleich zu seinem Vorgänger Qwen2.5 erweitert Qwen3 die mehrsprachige Unterstützung von 29 auf 119 Sprachen und Dialekte und verbessert so die globale Zugänglichkeit durch verbesserte Fähigkeiten im cross-lingualen Verständnis und der Generierung. Um Reproduzierbarkeit und gemeinschaftsgetriebene Forschung und Entwicklung zu fördern, sind alle Qwen3-Modelle öffentlich unter der Apache-2.0-Lizenz zugänglich.