Qwen2 Technischer BerichtQwen2 Technical Report
Dieser Bericht stellt die Qwen2-Serie vor, die neueste Ergänzung zu unseren großen Sprachmodellen und großen multimodalen Modellen. Wir veröffentlichen eine umfassende Reihe von grundlegenden und anweisungsgesteuerten Sprachmodellen, die einen Parameterbereich von 0,5 bis 72 Milliarden umfassen und dichte Modelle sowie ein Mixture-of-Experts-Modell umfassen. Qwen2 übertrifft die meisten früheren Open-Weight-Modelle, einschließlich seines Vorgängers Qwen1.5, und zeigt eine wettbewerbsfähige Leistung im Vergleich zu proprietären Modellen in verschiedenen Benchmarks für Sprachverständnis, Generierung, mehrsprachige Kompetenz, Codierung, Mathematik und Argumentation. Das Flaggschiff-Modell, Qwen2-72B, zeigt bemerkenswerte Leistungen: 84,2 bei MMLU, 37,9 bei GPQA, 64,6 bei HumanEval, 89,5 bei GSM8K und 82,4 bei BBH als Basissprachmodell. Die anweisungsgesteuerte Variante, Qwen2-72B-Instruct, erreicht 9,1 bei MT-Bench, 48,1 bei Arena-Hard und 35,7 bei LiveCodeBench. Darüber hinaus zeigt Qwen2 robuste mehrsprachige Fähigkeiten, ist in etwa 30 Sprachen versiert, darunter Englisch, Chinesisch, Spanisch, Französisch, Deutsch, Arabisch, Russisch, Koreanisch, Japanisch, Thailändisch, Vietnamesisch und mehr, was seine Vielseitigkeit und globale Reichweite unterstreicht. Um Innovation und Zugänglichkeit in der Community zu fördern, haben wir die Qwen2-Modellgewichte offen auf Hugging Face und ModelScope sowie die ergänzenden Materialien einschließlich Beispielcode auf GitHub zur Verfügung gestellt. Diese Plattformen bieten auch Ressourcen für Quantisierung, Feinabstimmung und Bereitstellung, um eine Vielzahl von Anwendungen und Forschungsvorhaben zu erleichtern.