ChatPaper.aiChatPaper

Qwen2技術レポート

Qwen2 Technical Report

July 15, 2024
著者: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
cs.AI

要旨

本レポートでは、大規模言語モデルおよび大規模マルチモーダルモデルの最新シリーズであるQwen2を紹介します。0.5Bから72Bまでのパラメータ範囲をカバーする、密なモデルとMixture-of-Expertsモデルを含む、包括的な基盤モデルおよび指示チューニングされた言語モデルをリリースしました。Qwen2は、先行するQwen1.5を含むほとんどの既存のオープンウェイトモデルを凌駕し、言語理解、生成、多言語能力、コーディング、数学、推論など多様なベンチマークにおいて、プロプライエタリモデルと競合する性能を示しています。 フラッグシップモデルであるQwen2-72Bは、基盤言語モデルとして、MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで82.4という顕著な性能を発揮します。指示チューニングされたバリアントであるQwen2-72B-Instructは、MT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7を達成しました。さらに、Qwen2は約30言語にわたる強力な多言語能力を示し、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語などを含む多様な言語に対応し、その汎用性とグローバルな到達範囲を強調しています。 コミュニティのイノベーションとアクセシビリティを促進するため、Qwen2のモデルウェイトをHugging Face1およびModelScope2で公開し、GitHub3にはサンプルコードを含む補足資料を提供しています。これらのプラットフォームには、量子化、ファインチューニング、デプロイメントのためのリソースも含まれており、幅広いアプリケーションと研究活動を支援します。
English
This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.

Summary

AI-Generated Summary

PDF1633November 28, 2024