Технический отчет Qwen2
Qwen2 Technical Report
July 15, 2024
Авторы: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
cs.AI
Аннотация
Данный отчет представляет серию Qwen2, последнее дополнение к нашим большим языковым моделям и большим мультимодальным моделям. Мы выпустили всесторонний набор основных и инструкционно настроенных языковых моделей, охватывающих диапазон параметров от 0,5 до 72 миллиардов, включающих плотные модели и модель Mixture-of-Experts. Qwen2 превосходит большинство предыдущих моделей с открытым весом, включая своего предшественника Qwen1.5, и демонстрирует конкурентоспособную производительность по сравнению с собственными моделями на различных бенчмарках по пониманию языка, генерации, мультиязычной компетентности, программированию, математике и рассуждениям.
Флагманская модель, Qwen2-72B, демонстрирует выдающуюся производительность: 84,2 по MMLU, 37,9 по GPQA, 64,6 по HumanEval, 89,5 по GSM8K и 82,4 по BBH в качестве базовой языковой модели. Вариант с инструкционной настройкой, Qwen2-72B-Instruct, достигает 9,1 по MT-Bench, 48,1 по Arena-Hard и 35,7 по LiveCodeBench. Более того, Qwen2 демонстрирует надежные мультиязычные возможности, владея примерно 30 языками, охватывая английский, китайский, испанский, французский, немецкий, арабский, русский, корейский, японский, тайский, вьетнамский и другие, подчеркивая свою универсальность и глобальную охват.
Для поощрения инноваций и доступности в сообществе мы сделали веса модели Qwen2 открыто доступными на платформах Hugging Face и ModelScope, а также дополнительные материалы, включая примеры кода на GitHub. Эти платформы также включают ресурсы для квантизации, дообучения и развертывания, облегчая широкий спектр приложений и исследовательских усилий.
English
This report introduces the Qwen2 series, the latest addition to our large
language models and large multimodal models. We release a comprehensive suite
of foundational and instruction-tuned language models, encompassing a parameter
range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts
model. Qwen2 surpasses most prior open-weight models, including its predecessor
Qwen1.5, and exhibits competitive performance relative to proprietary models
across diverse benchmarks on language understanding, generation, multilingual
proficiency, coding, mathematics, and reasoning.
The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on
MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base
language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1
on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2
demonstrates robust multilingual capabilities, proficient in approximately 30
languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian,
Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and
global reach.
To foster community innovation and accessibility, we have made the Qwen2
model weights openly available on Hugging Face1 and ModelScope2, and the
supplementary materials including example code on GitHub3. These platforms also
include resources for quantization, fine-tuning, and deployment, facilitating a
wide range of applications and research endeavors.Summary
AI-Generated Summary