Rapport Technique de Qwen2Qwen2 Technical Report
Ce rapport présente la série Qwen2, la dernière addition à nos grands modèles de langage et grands modèles multimodaux. Nous publions une suite complète de modèles de langage de base et ajustés par instruction, couvrant une plage de paramètres de 0,5 à 72 milliards, incluant des modèles denses et un modèle de type Mixture-of-Experts. Qwen2 surpasse la plupart des modèles open-weight précédents, y compris son prédécesseur Qwen1.5, et affiche des performances compétitives par rapport aux modèles propriétaires sur divers benchmarks en compréhension du langage, génération, compétence multilingue, codage, mathématiques et raisonnement. Le modèle phare, Qwen2-72B, démontre des performances remarquables : 84,2 sur MMLU, 37,9 sur GPQA, 64,6 sur HumanEval, 89,5 sur GSM8K, et 82,4 sur BBH en tant que modèle de langage de base. La variante ajustée par instruction, Qwen2-72B-Instruct, atteint 9,1 sur MT-Bench, 48,1 sur Arena-Hard, et 35,7 sur LiveCodeBench. De plus, Qwen2 montre des capacités multilingues robustes, maîtrisant environ 30 langues, dont l'anglais, le chinois, l'espagnol, le français, l'allemand, l'arabe, le russe, le coréen, le japonais, le thaï, le vietnamien, et bien d'autres, soulignant sa polyvalence et sa portée mondiale. Pour favoriser l'innovation communautaire et l'accessibilité, nous avons rendu les poids des modèles Qwen2 librement disponibles sur Hugging Face1 et ModelScope2, ainsi que les matériaux supplémentaires, y compris des exemples de code, sur GitHub3. Ces plateformes incluent également des ressources pour la quantification, le fine-tuning et le déploiement, facilitant une large gamme d'applications et de recherches.