ChatPaper.aiChatPaper

ChatGLM : Une famille de grands modèles de langage, de GLM-130B à GLM-4 All Tools

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

June 18, 2024
Auteurs: Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang
cs.AI

Résumé

Nous présentons ChatGLM, une famille évolutive de grands modèles de langage que nous développons depuis un certain temps. Ce rapport se concentre principalement sur la série de langages GLM-4, qui comprend GLM-4, GLM-4-Air et GLM-4-9B. Ces modèles représentent nos modèles les plus performants, entraînés avec toutes les connaissances et leçons tirées des trois générations précédentes de ChatGLM. À ce jour, les modèles GLM-4 sont pré-entraînés sur dix mille milliards de tokens, principalement en chinois et en anglais, ainsi que sur un petit ensemble de corpus provenant de 24 langues, et alignés principalement pour une utilisation en chinois et en anglais. Cet alignement de haute qualité est obtenu grâce à un processus de post-formation en plusieurs étapes, qui inclut un réglage fin supervisé et un apprentissage à partir des retours humains. Les évaluations montrent que GLM-4 1) rivalise de près ou surpasse GPT-4 en termes de métriques générales telles que MMLU, GSM8K, MATH, BBH, GPQA et HumanEval, 2) se rapproche de GPT-4-Turbo dans le suivi des instructions mesuré par IFEval, 3) correspond à GPT-4 Turbo (128K) et Claude 3 pour les tâches à contexte long, et 4) surpasse GPT-4 dans les alignements chinois mesurés par AlignBench. Le modèle GLM-4 All Tools est en outre aligné pour comprendre l'intention de l'utilisateur et décider de manière autonome quand et quel(s) outil(s) utiliser -- y compris un navigateur web, un interpréteur Python, un modèle de texte à image et des fonctions définies par l'utilisateur -- pour accomplir efficacement des tâches complexes. Dans des applications pratiques, il correspond et dépasse même GPT-4 All Tools dans des tâches comme l'accès à des informations en ligne via la navigation web et la résolution de problèmes mathématiques à l'aide de l'interpréteur Python. Au fil du temps, nous avons ouvert en accès libre une série de modèles, notamment ChatGLM-6B (trois générations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM et CodeGeeX, attirant plus de 10 millions de téléchargements sur Hugging Face en 2023 seulement. Les modèles ouverts peuvent être consultés via https://github.com/THUDM et https://huggingface.co/THUDM.
English
We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.

Summary

AI-Generated Summary

PDF332December 4, 2024