ChatPaper.aiChatPaper

ChatGLM: GLM-130B에서 GLM-4 All Tools에 이르는 대규모 언어 모델 패밀리

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

June 18, 2024
저자: Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang
cs.AI

초록

우리는 시간이 지남에 따라 개발해 온 대규모 언어 모델 패밀리인 ChatGLM을 소개합니다. 이 보고서는 주로 GLM-4 언어 시리즈에 초점을 맞추고 있으며, 여기에는 GLM-4, GLM-4-Air, GLM-4-9B가 포함됩니다. 이 모델들은 이전 세대의 ChatGLM에서 얻은 모든 통찰과 교훈을 바탕으로 훈련된 우리의 가장 강력한 모델들을 대표합니다. 현재까지 GLM-4 모델들은 주로 중국어와 영어로 된 10조 개의 토큰과 24개 언어의 소규모 코퍼스를 기반으로 사전 훈련되었으며, 주로 중국어와 영어 사용에 맞춰 정렬되었습니다. 이러한 고품질의 정렬은 감독 미세 조정과 인간 피드백 학습을 포함한 다단계 사후 훈련 과정을 통해 달성되었습니다. 평가 결과에 따르면, GLM-4는 1) MMLU, GSM8K, MATH, BBH, GPQA, HumanEval과 같은 일반적인 메트릭에서 GPT-4와 거의 비슷하거나 더 나은 성능을 보이고, 2) IFEval로 측정된 지시 따르기 능력에서 GPT-4-Turbo에 근접하며, 3) 긴 문맥 작업에서 GPT-4 Turbo (128K) 및 Claude 3와 동등한 성능을 보이고, 4) AlignBench으로 측정된 중국어 정렬에서 GPT-4를 능가합니다. GLM-4 All Tools 모델은 사용자 의도를 이해하고 웹 브라우저, Python 인터프리터, 텍스트-이미지 모델, 사용자 정의 함수를 포함한 도구를 언제 어떤 것을 사용할지 자율적으로 결정하도록 추가로 정렬되어 복잡한 작업을 효과적으로 완료합니다. 실제 응용에서, 이 모델은 웹 브라우징을 통해 온라인 정보에 접근하거나 Python 인터프리터를 사용하여 수학 문제를 해결하는 작업에서 GPT-4 All Tools와 비슷하거나 더 나은 성능을 보입니다. 우리는 과정에서 ChatGLM-6B(3세대), GLM-4-9B(128K, 1M), GLM-4V-9B, WebGLM, CodeGeeX를 포함한 일련의 모델들을 오픈소스로 공개했으며, 2023년 한 해 동안 Hugging Face에서만 1천만 건 이상의 다운로드를 기록했습니다. 오픈 모델들은 https://github.com/THUDM와 https://huggingface.co/THUDM를 통해 접근할 수 있습니다.
English
We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.
PDF332December 4, 2024