Rapport Technique de Qwen
Qwen Technical Report
September 28, 2023
Auteurs: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI
Résumé
Les grands modèles de langage (LLM) ont révolutionné le domaine de l'intelligence artificielle, permettant des tâches de traitement du langage naturel qui étaient auparavant considérées comme exclusivement humaines. Dans ce travail, nous présentons Qwen, la première version de notre série de grands modèles de langage. Qwen est une série complète de modèles de langage qui englobe des modèles distincts avec des nombres de paramètres variés. Elle inclut Qwen, les modèles de langage de base pré-entraînés, et Qwen-Chat, les modèles de conversation affinés avec des techniques d'alignement humain. Les modèles de langage de base démontrent systématiquement des performances supérieures sur une multitude de tâches en aval, et les modèles de conversation, en particulier ceux entraînés à l'aide de l'apprentissage par renforcement à partir de retours humains (RLHF), sont très compétitifs. Les modèles de conversation possèdent des capacités avancées d'utilisation d'outils et de planification pour créer des applications d'agents, affichant des performances impressionnantes même par rapport à des modèles plus grands sur des tâches complexes comme l'utilisation d'un interpréteur de code. De plus, nous avons développé des modèles spécialisés en codage, Code-Qwen et Code-Qwen-Chat, ainsi que des modèles axés sur les mathématiques, Math-Qwen-Chat, qui sont construits sur des modèles de langage de base. Ces modèles démontrent des performances significativement améliorées par rapport aux modèles open-source, et se situent légèrement en retrait par rapport aux modèles propriétaires.
English
Large language models (LLMs) have revolutionized the field of artificial
intelligence, enabling natural language processing tasks that were previously
thought to be exclusive to humans. In this work, we introduce Qwen, the first
installment of our large language model series. Qwen is a comprehensive
language model series that encompasses distinct models with varying parameter
counts. It includes Qwen, the base pretrained language models, and Qwen-Chat,
the chat models finetuned with human alignment techniques. The base language
models consistently demonstrate superior performance across a multitude of
downstream tasks, and the chat models, particularly those trained using
Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The
chat models possess advanced tool-use and planning capabilities for creating
agent applications, showcasing impressive performance even when compared to
bigger models on complex tasks like utilizing a code interpreter. Furthermore,
we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as
well as mathematics-focused models, Math-Qwen-Chat, which are built upon base
language models. These models demonstrate significantly improved performance in
comparison with open-source models, and slightly fall behind the proprietary
models.