ChatGLM: Een Familie van Grote Taalmodellen van GLM-130B tot GLM-4 All Tools
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
June 18, 2024
Auteurs: Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang
cs.AI
Samenvatting
We introduceren ChatGLM, een evoluerende familie van grote taalmodellen die we in de loop der tijd hebben ontwikkeld. Dit rapport richt zich voornamelijk op de GLM-4-taalserie, die GLM-4, GLM-4-Air en GLM-4-9B omvat. Deze modellen vertegenwoordigen onze meest capabele modellen die zijn getraind met alle inzichten en lessen die zijn opgedaan uit de voorgaande drie generaties van ChatGLM. Tot op heden zijn de GLM-4-modellen voorgetraind op tien biljoen tokens, voornamelijk in het Chinees en Engels, samen met een kleine set corpora uit 24 talen, en primair afgestemd op Chinees en Engels gebruik. De hoogwaardige afstemming wordt bereikt via een meerfasig na-trainingsproces, dat onder meer supervised fine-tuning en leren van menselijke feedback omvat. Evaluaties tonen aan dat GLM-4 1) dicht in de buurt komt of beter presteert dan GPT-4 in termen van algemene metrieken zoals MMLU, GSM8K, MATH, BBH, GPQA en HumanEval, 2) dicht in de buurt komt van GPT-4-Turbo in het volgen van instructies zoals gemeten door IFEval, 3) gelijkwaardig is aan GPT-4 Turbo (128K) en Claude 3 voor taken met een lange context, en 4) GPT-4 overtreft in Chinese afstemming zoals gemeten door AlignBench. Het GLM-4 All Tools-model is verder afgestemd om gebruikersintentie te begrijpen en autonoom te beslissen wanneer en welk(e) hulpmiddel(en) te gebruiken – inclusief webbrowser, Python-interpreter, tekst-naar-beeldmodel en door de gebruiker gedefinieerde functies – om complexe taken effectief te voltooien. In praktische toepassingen evenaart het en overtreft het zelfs GPT-4 All Tools in taken zoals het verkrijgen van online informatie via webbrowsing en het oplossen van wiskundige problemen met behulp van de Python-interpreter. In de loop der tijd hebben we een reeks modellen openbaar gemaakt, waaronder ChatGLM-6B (drie generaties), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM en CodeGeeX, wat alleen al in 2023 meer dan 10 miljoen downloads op Hugging Face heeft aangetrokken. De open modellen zijn toegankelijk via https://github.com/THUDM en https://huggingface.co/THUDM.
English
We introduce ChatGLM, an evolving family of large language models that we
have been developing over time. This report primarily focuses on the GLM-4
language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent
our most capable models that are trained with all the insights and lessons
gained from the preceding three generations of ChatGLM. To date, the GLM-4
models are pre-trained on ten trillions of tokens mostly in Chinese and
English, along with a small set of corpus from 24 languages, and aligned
primarily for Chinese and English usage. The high-quality alignment is achieved
via a multi-stage post-training process, which involves supervised fine-tuning
and learning from human feedback. Evaluations show that GLM-4 1) closely rivals
or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH,
BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following
as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long
context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by
AlignBench. The GLM-4 All Tools model is further aligned to understand user
intent and autonomously decide when and which tool(s) touse -- including web
browser, Python interpreter, text-to-image model, and user-defined functions --
to effectively complete complex tasks. In practical applications, it matches
and even surpasses GPT-4 All Tools in tasks like accessing online information
via web browsing and solving math problems using Python interpreter. Over the
course, we have open-sourced a series of models, including ChatGLM-6B (three
generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting
over 10 million downloads on Hugging face in the year 2023 alone. The open
models can be accessed through https://github.com/THUDM and
https://huggingface.co/THUDM.