ChatPaper.aiChatPaper

Informe Técnico de Tele-FLM

Tele-FLM Technical Report

April 25, 2024
Autores: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades profundas en comprensión y generación de lenguaje, facilitando una amplia gama de aplicaciones. Sin embargo, existe una notable escasez de metodologías detalladas y de código abierto sobre cómo escalar eficientemente LLMs más allá de los 50 mil millones de parámetros con un mínimo costo de prueba y error y recursos computacionales. En este informe, presentamos Tele-FLM (también conocido como FLM-2), un modelo de lenguaje multilingüe de 52 mil millones de parámetros de código abierto que cuenta con un paradigma de preentrenamiento estable y eficiente, además de capacidades mejoradas de juicio factual. Tele-FLM demuestra habilidades superiores en modelado de lenguaje multilingüe, medido por BPB en corpus textuales. Además, en evaluaciones de modelos base tanto en inglés como en chino, es comparable a modelos de código abierto fuertes que involucran un mayor número de FLOPs de preentrenamiento, como Llama2-70B y DeepSeek-67B. Además de los pesos del modelo, compartimos los diseños centrales, prácticas de ingeniería y detalles de entrenamiento, lo que esperamos beneficie tanto a la comunidad académica como a la industrial.
English
Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.

Summary

AI-Generated Summary

PDF181December 15, 2024