ChatPaper.aiChatPaper

Rapport Technique de Qwen2

Qwen2 Technical Report

July 15, 2024
Auteurs: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
cs.AI

Résumé

Ce rapport présente la série Qwen2, la dernière addition à nos grands modèles de langage et grands modèles multimodaux. Nous publions une suite complète de modèles de langage de base et ajustés par instruction, couvrant une plage de paramètres de 0,5 à 72 milliards, incluant des modèles denses et un modèle de type Mixture-of-Experts. Qwen2 surpasse la plupart des modèles open-weight précédents, y compris son prédécesseur Qwen1.5, et affiche des performances compétitives par rapport aux modèles propriétaires sur divers benchmarks en compréhension du langage, génération, compétence multilingue, codage, mathématiques et raisonnement. Le modèle phare, Qwen2-72B, démontre des performances remarquables : 84,2 sur MMLU, 37,9 sur GPQA, 64,6 sur HumanEval, 89,5 sur GSM8K, et 82,4 sur BBH en tant que modèle de langage de base. La variante ajustée par instruction, Qwen2-72B-Instruct, atteint 9,1 sur MT-Bench, 48,1 sur Arena-Hard, et 35,7 sur LiveCodeBench. De plus, Qwen2 montre des capacités multilingues robustes, maîtrisant environ 30 langues, dont l'anglais, le chinois, l'espagnol, le français, l'allemand, l'arabe, le russe, le coréen, le japonais, le thaï, le vietnamien, et bien d'autres, soulignant sa polyvalence et sa portée mondiale. Pour favoriser l'innovation communautaire et l'accessibilité, nous avons rendu les poids des modèles Qwen2 librement disponibles sur Hugging Face1 et ModelScope2, ainsi que les matériaux supplémentaires, y compris des exemples de code, sur GitHub3. Ces plateformes incluent également des ressources pour la quantification, le fine-tuning et le déploiement, facilitant une large gamme d'applications et de recherches.
English
This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.

Summary

AI-Generated Summary

PDF1633November 28, 2024