Qwen2 기술 보고서
Qwen2 Technical Report
July 15, 2024
저자: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
cs.AI
초록
본 보고서는 우리의 대규모 언어 모델 및 대규모 멀티모달 모델의 최신 추가인 Qwen2 시리즈를 소개합니다. 우리는 0.5에서 720억 개의 파라미터 범위를 아우르는 기본 및 지시 튜닝 언어 모델의 포괄적인 세트를 공개하며, 여기에는 밀집 모델과 Mixture-of-Experts 모델이 포함됩니다. Qwen2는 이전 버전인 Qwen1.5를 포함한 대부분의 기존 오픈 가중치 모델을 능가하며, 언어 이해, 생성, 다국어 능력, 코딩, 수학, 추론 등 다양한 벤치마크에서 독점 모델과 경쟁력 있는 성능을 보여줍니다.
플래그십 모델인 Qwen2-72B는 뛰어난 성능을 보여줍니다: 기본 언어 모델로서 MMLU에서 84.2, GPQA에서 37.9, HumanEval에서 64.6, GSM8K에서 89.5, BBH에서 82.4를 기록했습니다. 지시 튜닝 버전인 Qwen2-72B-Instruct는 MT-Bench에서 9.1, Arena-Hard에서 48.1, LiveCodeBench에서 35.7을 달성했습니다. 또한 Qwen2는 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 약 30개 언어에 능숙한 강력한 다국어 능력을 보여주며, 그 다양성과 글로벌 접근성을 강조합니다.
커뮤니티 혁신과 접근성을 촉진하기 위해 우리는 Qwen2 모델 가중치를 Hugging Face1와 ModelScope2에 공개했으며, GitHub3에는 예제 코드를 포함한 보조 자료를 제공했습니다. 이러한 플랫폼에는 양자화, 미세 조정, 배포를 위한 리소스도 포함되어 있어 다양한 애플리케이션과 연구 활동을 용이하게 합니다.
English
This report introduces the Qwen2 series, the latest addition to our large
language models and large multimodal models. We release a comprehensive suite
of foundational and instruction-tuned language models, encompassing a parameter
range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts
model. Qwen2 surpasses most prior open-weight models, including its predecessor
Qwen1.5, and exhibits competitive performance relative to proprietary models
across diverse benchmarks on language understanding, generation, multilingual
proficiency, coding, mathematics, and reasoning.
The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on
MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base
language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1
on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2
demonstrates robust multilingual capabilities, proficient in approximately 30
languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian,
Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and
global reach.
To foster community innovation and accessibility, we have made the Qwen2
model weights openly available on Hugging Face1 and ModelScope2, and the
supplementary materials including example code on GitHub3. These platforms also
include resources for quantization, fine-tuning, and deployment, facilitating a
wide range of applications and research endeavors.Summary
AI-Generated Summary