ChatGLM: Семейство больших языковых моделей от GLM-130B до GLM-4 Все Инструменты
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
June 18, 2024
Авторы: Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang
cs.AI
Аннотация
Мы представляем ChatGLM, развивающуюся семью больших языковых моделей, над которыми мы работали в течение времени. В данном отчете основное внимание уделяется серии языков GLM-4, включающей в себя модели GLM-4, GLM-4-Air и GLM-4-9B. Они представляют наши наиболее продвинутые модели, обученные с учетом всех идей и уроков, извлеченных из предшествующих трех поколений ChatGLM. На сегодняшний день модели GLM-4 предварительно обучены на десяти триллионах токенов в основном на китайском и английском языках, а также на небольшом наборе корпусов из 24 языков, в основном выровненных для использования на китайском и английском. Высокое качество выравнивания достигается с помощью многоступенчатого процесса последующего обучения, включающего надзорную донастройку и обучение на основе обратной связи от людей. Оценки показывают, что модель GLM-4 1) близко конкурирует или превосходит GPT-4 по общим метрикам, таким как MMLU, GSM8K, MATH, BBH, GPQA и HumanEval, 2) приближается к GPT-4-Turbo в следовании инструкциям, измеряемому по IFEval, 3) соответствует GPT-4 Turbo (128K) и Claude 3 для задач с длинным контекстом, и 4) превосходит GPT-4 в выравнивании на китайском языке, измеряемом по AlignBench. Модель GLM-4 All Tools дополнительно выравнена для понимания намерений пользователя и автономного принятия решения о том, когда и какой инструмент(ы) использовать - включая веб-браузер, интерпретатор Python, модель текст-в-изображение и пользовательские функции - для эффективного выполнения сложных задач. В практических приложениях она соответствует и даже превосходит GPT-4 All Tools в задачах, таких как доступ к онлайн-информации через веб-браузинг и решение математических задач с использованием интерпретатора Python. За время работы мы сделали доступными для общественности ряд моделей, включая ChatGLM-6B (три поколения), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM и CodeGeeX, привлекая более 10 миллионов загрузок на Hugging Face только в 2023 году. Открытые модели можно получить на https://github.com/THUDM и https://huggingface.co/THUDM.
English
We introduce ChatGLM, an evolving family of large language models that we
have been developing over time. This report primarily focuses on the GLM-4
language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent
our most capable models that are trained with all the insights and lessons
gained from the preceding three generations of ChatGLM. To date, the GLM-4
models are pre-trained on ten trillions of tokens mostly in Chinese and
English, along with a small set of corpus from 24 languages, and aligned
primarily for Chinese and English usage. The high-quality alignment is achieved
via a multi-stage post-training process, which involves supervised fine-tuning
and learning from human feedback. Evaluations show that GLM-4 1) closely rivals
or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH,
BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following
as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long
context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by
AlignBench. The GLM-4 All Tools model is further aligned to understand user
intent and autonomously decide when and which tool(s) touse -- including web
browser, Python interpreter, text-to-image model, and user-defined functions --
to effectively complete complex tasks. In practical applications, it matches
and even surpasses GPT-4 All Tools in tasks like accessing online information
via web browsing and solving math problems using Python interpreter. Over the
course, we have open-sourced a series of models, including ChatGLM-6B (three
generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting
over 10 million downloads on Hugging face in the year 2023 alone. The open
models can be accessed through https://github.com/THUDM and
https://huggingface.co/THUDM.Summary
AI-Generated Summary