ChatPaper.aiChatPaper

Qwen 기술 보고서

Qwen Technical Report

September 28, 2023
저자: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI

초록

대형 언어 모델(LLMs)은 인공지능 분야에 혁신을 가져왔으며, 이전에는 인간에게만 가능하다고 여겨졌던 자연어 처리 작업을 가능하게 했습니다. 본 연구에서는 우리의 대형 언어 모델 시리즈의 첫 번째 작품인 Qwen을 소개합니다. Qwen은 다양한 파라미터 수를 가진 독자적인 모델들을 포함하는 포괄적인 언어 모델 시리즈입니다. 이 시리즈에는 기본 사전 학습 언어 모델인 Qwen과 인간 정렬 기술로 미세 조정된 채팅 모델인 Qwen-Chat이 포함됩니다. 기본 언어 모델은 다양한 다운스트림 작업에서 일관되게 우수한 성능을 보여주며, 특히 인간 피드백을 통한 강화 학습(RLHF)을 사용해 훈련된 채팅 모델은 매우 경쟁력이 있습니다. 이 채팅 모델은 에이전트 애플리케이션을 생성하기 위한 고급 도구 사용 및 계획 능력을 갖추고 있으며, 코드 인터프리터 활용과 같은 복잡한 작업에서 더 큰 모델과 비교해도 인상적인 성능을 보여줍니다. 또한, 기본 언어 모델을 기반으로 코딩 특화 모델인 Code-Qwen과 Code-Qwen-Chat, 그리고 수학에 초점을 맞춘 Math-Qwen-Chat을 개발했습니다. 이러한 모델들은 오픈소스 모델과 비교해 크게 향상된 성능을 보여주며, 독점 모델에 약간 뒤처지는 수준입니다.
English
Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
PDF362December 15, 2024