Relatório Técnico do Qwen
Qwen Technical Report
September 28, 2023
Autores: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) revolucionaram o campo da inteligência artificial, permitindo tarefas de processamento de linguagem natural que antes eram consideradas exclusivas dos seres humanos. Neste trabalho, apresentamos Qwen, a primeira versão da nossa série de grandes modelos de linguagem. Qwen é uma série abrangente de modelos de linguagem que engloba modelos distintos com diferentes contagens de parâmetros. Ela inclui Qwen, os modelos de linguagem base pré-treinados, e Qwen-Chat, os modelos de chat ajustados com técnicas de alinhamento humano. Os modelos de linguagem base demonstram consistentemente desempenho superior em uma variedade de tarefas subsequentes, e os modelos de chat, especialmente aqueles treinados com Aprendizado por Reforço com Feedback Humano (RLHF), são altamente competitivos. Os modelos de chat possuem capacidades avançadas de uso de ferramentas e planejamento para a criação de aplicações de agentes, mostrando desempenho impressionante mesmo quando comparados a modelos maiores em tarefas complexas, como a utilização de um interpretador de código. Além disso, desenvolvemos modelos especializados em codificação, Code-Qwen e Code-Qwen-Chat, bem como modelos focados em matemática, Math-Qwen-Chat, que são construídos sobre modelos de linguagem base. Esses modelos demonstram um desempenho significativamente melhorado em comparação com modelos de código aberto, e ficam ligeiramente atrás dos modelos proprietários.
English
Large language models (LLMs) have revolutionized the field of artificial
intelligence, enabling natural language processing tasks that were previously
thought to be exclusive to humans. In this work, we introduce Qwen, the first
installment of our large language model series. Qwen is a comprehensive
language model series that encompasses distinct models with varying parameter
counts. It includes Qwen, the base pretrained language models, and Qwen-Chat,
the chat models finetuned with human alignment techniques. The base language
models consistently demonstrate superior performance across a multitude of
downstream tasks, and the chat models, particularly those trained using
Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The
chat models possess advanced tool-use and planning capabilities for creating
agent applications, showcasing impressive performance even when compared to
bigger models on complex tasks like utilizing a code interpreter. Furthermore,
we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as
well as mathematics-focused models, Math-Qwen-Chat, which are built upon base
language models. These models demonstrate significantly improved performance in
comparison with open-source models, and slightly fall behind the proprietary
models.