Qwen Technisch Rapport
Qwen Technical Report
September 28, 2023
Auteurs: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben een revolutie teweeggebracht op het gebied van kunstmatige intelligentie, waardoor natuurlijke taalverwerkingstaken mogelijk zijn geworden die voorheen als exclusief voor mensen werden beschouwd. In dit werk introduceren we Qwen, het eerste deel van onze serie grote taalmodellen. Qwen is een uitgebreide serie taalmodellen die verschillende modellen omvat met uiteenlopende aantallen parameters. Het omvat Qwen, de basis vooraf getrainde taalmodellen, en Qwen-Chat, de chatmodellen die zijn afgestemd met technieken voor menselijke afstemming. De basis taalmodellen tonen consequent superieure prestaties op een veelheid van downstream taken, en de chatmodellen, met name die getraind met Reinforcement Learning from Human Feedback (RLHF), zijn zeer concurrerend. De chatmodellen beschikken over geavanceerde mogelijkheden voor het gebruik van tools en planning voor het creëren van agenttoepassingen, en laten indrukwekkende prestaties zien, zelfs in vergelijking met grotere modellen bij complexe taken zoals het gebruik van een code-interpreter. Bovendien hebben we coderingsgespecialiseerde modellen ontwikkeld, Code-Qwen en Code-Qwen-Chat, evenals wiskundegerichte modellen, Math-Qwen-Chat, die zijn gebaseerd op basis taalmodellen. Deze modellen tonen een aanzienlijk verbeterde prestaties in vergelijking met open-source modellen, en blijven iets achter bij de propriëtaire modellen.
English
Large language models (LLMs) have revolutionized the field of artificial
intelligence, enabling natural language processing tasks that were previously
thought to be exclusive to humans. In this work, we introduce Qwen, the first
installment of our large language model series. Qwen is a comprehensive
language model series that encompasses distinct models with varying parameter
counts. It includes Qwen, the base pretrained language models, and Qwen-Chat,
the chat models finetuned with human alignment techniques. The base language
models consistently demonstrate superior performance across a multitude of
downstream tasks, and the chat models, particularly those trained using
Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The
chat models possess advanced tool-use and planning capabilities for creating
agent applications, showcasing impressive performance even when compared to
bigger models on complex tasks like utilizing a code interpreter. Furthermore,
we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as
well as mathematics-focused models, Math-Qwen-Chat, which are built upon base
language models. These models demonstrate significantly improved performance in
comparison with open-source models, and slightly fall behind the proprietary
models.