ChatPaper.aiChatPaper

Relatório Técnico do Qwen

Qwen Technical Report

September 28, 2023
Autores: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) revolucionaram o campo da inteligência artificial, permitindo tarefas de processamento de linguagem natural que antes eram consideradas exclusivas dos seres humanos. Neste trabalho, apresentamos Qwen, a primeira versão da nossa série de grandes modelos de linguagem. Qwen é uma série abrangente de modelos de linguagem que engloba modelos distintos com diferentes contagens de parâmetros. Ela inclui Qwen, os modelos de linguagem base pré-treinados, e Qwen-Chat, os modelos de chat ajustados com técnicas de alinhamento humano. Os modelos de linguagem base demonstram consistentemente desempenho superior em uma variedade de tarefas subsequentes, e os modelos de chat, especialmente aqueles treinados com Aprendizado por Reforço com Feedback Humano (RLHF), são altamente competitivos. Os modelos de chat possuem capacidades avançadas de uso de ferramentas e planejamento para a criação de aplicações de agentes, mostrando desempenho impressionante mesmo quando comparados a modelos maiores em tarefas complexas, como a utilização de um interpretador de código. Além disso, desenvolvemos modelos especializados em codificação, Code-Qwen e Code-Qwen-Chat, bem como modelos focados em matemática, Math-Qwen-Chat, que são construídos sobre modelos de linguagem base. Esses modelos demonstram um desempenho significativamente melhorado em comparação com modelos de código aberto, e ficam ligeiramente atrás dos modelos proprietários.
English
Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
PDF382December 15, 2024