ChatPaper.aiChatPaper

ChatGLM: Una Familia de Modelos de Lenguaje de Gran Escala desde GLM-130B hasta GLM-4 con Todas las Herramientas

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

June 18, 2024
Autores: Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang
cs.AI

Resumen

Presentamos ChatGLM, una familia en evolución de modelos de lenguaje grande que hemos estado desarrollando a lo largo del tiempo. Este informe se centra principalmente en la serie de lenguaje GLM-4, que incluye GLM-4, GLM-4-Air y GLM-4-9B. Estos representan nuestros modelos más capaces, entrenados con todas las ideas y lecciones aprendidas de las tres generaciones anteriores de ChatGLM. Hasta la fecha, los modelos GLM-4 han sido preentrenados con diez billones de tokens, principalmente en chino e inglés, junto con un pequeño conjunto de corpus de 24 idiomas, y están alineados principalmente para su uso en chino e inglés. La alta calidad de la alineación se logra mediante un proceso de post-entrenamiento en múltiples etapas, que incluye ajuste fino supervisado y aprendizaje a partir de retroalimentación humana. Las evaluaciones muestran que GLM-4 1) rivaliza de cerca o supera a GPT-4 en términos de métricas generales como MMLU, GSM8K, MATH, BBH, GPQA y HumanEval, 2) se acerca a GPT-4-Turbo en la capacidad de seguir instrucciones, medida por IFEval, 3) iguala a GPT-4 Turbo (128K) y Claude 3 en tareas de contexto largo, y 4) supera a GPT-4 en alineaciones de chino, medida por AlignBench. El modelo GLM-4 All Tools está aún más alineado para comprender la intención del usuario y decidir de manera autónoma cuándo y qué herramienta(s) usar —incluyendo navegador web, intérprete de Python, modelo de texto a imagen y funciones definidas por el usuario— para completar eficazmente tareas complejas. En aplicaciones prácticas, iguala e incluso supera a GPT-4 All Tools en tareas como acceder a información en línea a través de navegación web y resolver problemas matemáticos utilizando el intérprete de Python. A lo largo del tiempo, hemos liberado una serie de modelos, incluyendo ChatGLM-6B (tres generaciones), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM y CodeGeeX, atrayendo más de 10 millones de descargas en Hugging Face solo en el año 2023. Los modelos abiertos pueden ser accedidos a través de https://github.com/THUDM y https://huggingface.co/THUDM.
English
We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.

Summary

AI-Generated Summary

PDF332December 4, 2024