Informe Técnico de Tele-FLM
Tele-FLM Technical Report
April 25, 2024
Autores: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades profundas en comprensión y generación de lenguaje, facilitando una amplia gama de aplicaciones. Sin embargo, existe una notable escasez de metodologías detalladas y de código abierto sobre cómo escalar eficientemente LLMs más allá de los 50 mil millones de parámetros con un mínimo costo de prueba y error y recursos computacionales. En este informe, presentamos Tele-FLM (también conocido como FLM-2), un modelo de lenguaje multilingüe de 52 mil millones de parámetros de código abierto que cuenta con un paradigma de preentrenamiento estable y eficiente, además de capacidades mejoradas de juicio factual. Tele-FLM demuestra habilidades superiores en modelado de lenguaje multilingüe, medido por BPB en corpus textuales. Además, en evaluaciones de modelos base tanto en inglés como en chino, es comparable a modelos de código abierto fuertes que involucran un mayor número de FLOPs de preentrenamiento, como Llama2-70B y DeepSeek-67B. Además de los pesos del modelo, compartimos los diseños centrales, prácticas de ingeniería y detalles de entrenamiento, lo que esperamos beneficie tanto a la comunidad académica como a la industrial.
English
Large language models (LLMs) have showcased profound capabilities in language
understanding and generation, facilitating a wide array of applications.
However, there is a notable paucity of detailed, open-sourced methodologies on
efficiently scaling LLMs beyond 50 billion parameters with minimum
trial-and-error cost and computational resources. In this report, we introduce
Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that
features a stable, efficient pre-training paradigm and enhanced factual
judgment capabilities. Tele-FLM demonstrates superior multilingual language
modeling abilities, measured by BPB on textual corpus. Besides, in both English
and Chinese foundation model evaluation, it is comparable to strong
open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B
and DeepSeek-67B. In addition to the model weights, we share the core designs,
engineering practices, and training details, which we expect to benefit both
the academic and industrial communities.Summary
AI-Generated Summary