Relatório Técnico Qwen2

Resumo

Este relatório apresenta a série Qwen2, a mais recente adição aos nossos grandes modelos de linguagem e grandes modelos multimodais. Lançamos uma ampla gama de modelos de linguagem fundamentais e ajustados para instrução, abrangendo uma faixa de parâmetros de 0,5 a 72 bilhões, apresentando modelos densos e um modelo Mixture-of-Experts. O Qwen2 supera a maioria dos modelos abertos anteriores, incluindo seu antecessor, o Qwen1.5, e demonstra desempenho competitivo em relação a modelos proprietários em diversos benchmarks de compreensão de linguagem, geração, proficiência multilíngue, codificação, matemática e raciocínio. O modelo principal, Qwen2-72B, apresenta um desempenho notável: 84,2 em MMLU, 37,9 em GPQA, 64,6 em HumanEval, 89,5 em GSM8K e 82,4 em BBH como modelo de linguagem base. A variante ajustada para instrução, Qwen2-72B-Instruct, atinge 9,1 em MT-Bench, 48,1 em Arena-Hard e 35,7 em LiveCodeBench. Além disso, o Qwen2 demonstra robustas capacidades multilíngues, sendo proficiente em aproximadamente 30 idiomas, abrangendo inglês, chinês, espanhol, francês, alemão, árabe, russo, coreano, japonês, tailandês, vietnamita e mais, destacando sua versatilidade e alcance global. Para promover a inovação e acessibilidade da comunidade, disponibilizamos os pesos do modelo Qwen2 abertamente no Hugging Face e ModelScope, e os materiais suplementares, incluindo código de exemplo no GitHub. Essas plataformas também incluem recursos para quantização, ajuste fino e implantação, facilitando uma ampla gama de aplicações e empreendimentos de pesquisa.

English

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.

Relatório Técnico Qwen2

Qwen2 Technical Report

Resumo

Support