Qwen2 技術報告Qwen2 Technical Report
本報告介紹了 Qwen2 系列,這是我們大型語言模型和大型多模態模型的最新成員。我們釋出了一套全面的基礎和指導調整的語言模型,涵蓋了從 0.5 到 720 億的參數範圍,包括密集模型和專家混合模型。Qwen2 超越了大多數先前的開放式權重模型,包括其前身 Qwen1.5,並在語言理解、生成、多語能力、編碼、數學和推理等各種基準測試中展現出與專有模型具有競爭力的表現。 旗艦模型 Qwen2-72B 展示了卓越的性能:在 MMLU 上為 84.2,在 GPQA 上為 37.9,在 HumanEval 上為 64.6,在 GSM8K 上為 89.5,在 BBH 上為 82.4,作為基本語言模型。指導調整變體 Qwen2-72B-Instruct 在 MT-Bench 上達到 9.1,在 Arena-Hard 上為 48.1,在 LiveCodeBench 上為 35.7。此外,Qwen2 展示了強大的多語能力,在約 30 種語言中表現優秀,包括英語、中文、西班牙語、法語、德語、阿拉伯語、俄語、韓語、日語、泰語、越南語等,突顯了其多功能性和全球覆蓋範圍。 為促進社區創新和可訪問性,我們已在 Hugging Face 和 ModelScope 上公開提供了 Qwen2 模型權重,並在 GitHub 上提供了包括示例代碼在內的補充材料。這些平台還包括量化、微調和部署資源,有助於廣泛應用和研究工作。