Qwen Technischer Bericht
Qwen Technical Report
September 28, 2023
Autoren: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben das Feld der künstlichen Intelligenz revolutioniert und ermöglichen natürliche Sprachverarbeitungsaufgaben, die zuvor als ausschließlich menschliche Fähigkeiten galten. In dieser Arbeit stellen wir Qwen vor, den ersten Teil unserer Serie großer Sprachmodelle. Qwen ist eine umfassende Sprachmodellserie, die verschiedene Modelle mit unterschiedlichen Parametergrößen umfasst. Dazu gehören Qwen, die Basis-vortrainierten Sprachmodelle, und Qwen-Chat, die Chat-Modelle, die mit Techniken zur menschlichen Ausrichtung feinabgestimmt wurden. Die Basis-Sprachmodelle zeigen durchweg überlegene Leistungen bei einer Vielzahl von Downstream-Aufgaben, und die Chat-Modelle, insbesondere diejenigen, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, sind äußerst wettbewerbsfähig. Die Chat-Modelle verfügen über fortgeschrittene Fähigkeiten zur Werkzeugnutzung und Planung für die Erstellung von Agentenanwendungen und zeigen beeindruckende Leistungen, selbst im Vergleich zu größeren Modellen bei komplexen Aufgaben wie der Nutzung eines Code-Interpreters. Darüber hinaus haben wir spezialisierte Modelle für die Programmierung entwickelt, Code-Qwen und Code-Qwen-Chat, sowie mathematikorientierte Modelle, Math-Qwen-Chat, die auf Basis-Sprachmodellen aufbauen. Diese Modelle zeigen eine deutlich verbesserte Leistung im Vergleich zu Open-Source-Modellen und liegen nur knapp hinter proprietären Modellen zurück.
English
Large language models (LLMs) have revolutionized the field of artificial
intelligence, enabling natural language processing tasks that were previously
thought to be exclusive to humans. In this work, we introduce Qwen, the first
installment of our large language model series. Qwen is a comprehensive
language model series that encompasses distinct models with varying parameter
counts. It includes Qwen, the base pretrained language models, and Qwen-Chat,
the chat models finetuned with human alignment techniques. The base language
models consistently demonstrate superior performance across a multitude of
downstream tasks, and the chat models, particularly those trained using
Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The
chat models possess advanced tool-use and planning capabilities for creating
agent applications, showcasing impressive performance even when compared to
bigger models on complex tasks like utilizing a code interpreter. Furthermore,
we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as
well as mathematics-focused models, Math-Qwen-Chat, which are built upon base
language models. These models demonstrate significantly improved performance in
comparison with open-source models, and slightly fall behind the proprietary
models.