ChatPaper.aiChatPaper

Qwen技術レポート

Qwen Technical Report

September 28, 2023
著者: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI

要旨

大規模言語モデル(LLM)は、人工知能の分野に革命をもたらし、従来は人間にしかできないと考えられていた自然言語処理タスクを可能にしました。本論文では、私たちの大規模言語モデルシリーズの第一弾となるQwenを紹介します。Qwenは、さまざまなパラメータ数を備えた個別のモデルを含む包括的な言語モデルシリーズです。これには、ベースの事前学習済み言語モデルであるQwenと、人間のアライメント技術を用いてファインチューニングされたチャットモデルであるQwen-Chatが含まれます。ベース言語モデルは、多数の下流タスクにおいて一貫して優れた性能を示し、特に人間のフィードバックからの強化学習(RLHF)を用いて訓練されたチャットモデルは非常に競争力があります。これらのチャットモデルは、エージェントアプリケーションを作成するための高度なツール使用能力と計画能力を備えており、コードインタプリタの使用などの複雑なタスクにおいても、より大規模なモデルと比較しても印象的な性能を発揮します。さらに、ベース言語モデルを基に構築された、コーディングに特化したモデルであるCode-QwenとCode-Qwen-Chat、および数学に焦点を当てたモデルであるMath-Qwen-Chatを開発しました。これらのモデルは、オープンソースモデルと比較して大幅に性能が向上しており、プロプライエタリモデルにわずかに及ばない程度です。
English
Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
PDF362December 15, 2024