Rapporto Tecnico di Qwen2

Abstract

Questo rapporto introduce la serie Qwen2, l'ultima aggiunta ai nostri modelli linguistici di grandi dimensioni e modelli multimodali di grandi dimensioni. Rilasciamo una suite completa di modelli linguistici di base e ottimizzati per istruzioni, che coprono un intervallo di parametri da 0,5 a 72 miliardi, includendo modelli densi e un modello Mixture-of-Experts. Qwen2 supera la maggior parte dei modelli open-weight precedenti, incluso il suo predecessore Qwen1.5, e mostra prestazioni competitive rispetto ai modelli proprietari in vari benchmark su comprensione del linguaggio, generazione, competenza multilingue, codifica, matematica e ragionamento. Il modello di punta, Qwen2-72B, mostra prestazioni notevoli: 84,2 su MMLU, 37,9 su GPQA, 64,6 su HumanEval, 89,5 su GSM8K e 82,4 su BBH come modello linguistico di base. La variante ottimizzata per istruzioni, Qwen2-72B-Instruct, raggiunge 9,1 su MT-Bench, 48,1 su Arena-Hard e 35,7 su LiveCodeBench. Inoltre, Qwen2 dimostra robuste capacità multilingue, competente in circa 30 lingue, tra cui inglese, cinese, spagnolo, francese, tedesco, arabo, russo, coreano, giapponese, thailandese, vietnamita e altre, sottolineando la sua versatilità e portata globale. Per favorire l'innovazione e l'accessibilità della comunità, abbiamo reso disponibili i pesi del modello Qwen2 su Hugging Face1 e ModelScope2, e i materiali supplementari, incluso il codice di esempio, su GitHub3. Queste piattaforme includono anche risorse per la quantizzazione, il fine-tuning e il deployment, facilitando una vasta gamma di applicazioni e iniziative di ricerca.

English

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.

Rapporto Tecnico di Qwen2

Qwen2 Technical Report

Abstract

Support