ChatPaper.aiChatPaper

Технический отчет по Qwen

Qwen Technical Report

September 28, 2023
Авторы: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
cs.AI

Аннотация

Крупные языковые модели (LLM) произвели революцию в области искусственного интеллекта, позволив решать задачи обработки естественного языка, которые ранее считались исключительной прерогативой человека. В данной работе мы представляем Qwen — первую модель из нашей серии крупных языковых моделей. Qwen представляет собой комплексную серию языковых моделей, включающую различные модели с разным количеством параметров. В неё входят Qwen — базовые предобученные языковые модели, и Qwen-Chat — чат-модели, дообученные с использованием методов согласования с человеческими предпочтениями. Базовые языковые модели демонстрируют стабильно высокую производительность в широком спектре задач, а чат-модели, особенно те, которые обучены с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), показывают конкурентоспособные результаты. Чат-модели обладают продвинутыми возможностями использования инструментов и планирования для создания агентских приложений, демонстрируя впечатляющую производительность даже в сравнении с более крупными моделями на сложных задачах, таких как использование интерпретатора кода. Кроме того, мы разработали специализированные модели для работы с кодом — Code-Qwen и Code-Qwen-Chat, а также модели, ориентированные на математику — Math-Qwen-Chat, которые построены на основе базовых языковых моделей. Эти модели демонстрируют значительно улучшенную производительность по сравнению с открытыми моделями, лишь немного уступая проприетарным решениям.
English
Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
PDF362December 15, 2024