Rapport Technique sur Tele-FLM
Tele-FLM Technical Report
April 25, 2024
Auteurs: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des capacités profondes en compréhension et génération du langage, facilitant une large gamme d'applications. Cependant, il existe une pénurie notable de méthodologies détaillées et open-source pour mettre à l'échelle efficacement les LLM au-delà de 50 milliards de paramètres avec un coût d'essais et erreurs et des ressources de calcul minimaux. Dans ce rapport, nous présentons Tele-FLM (alias FLM-2), un modèle de langage multilingue open-source de 52 milliards de paramètres qui propose un paradigme d'entraînement stable et efficace ainsi que des capacités améliorées de jugement factuel. Tele-FLM démontre des capacités supérieures en modélisation du langage multilingue, mesurées par le BPB sur des corpus textuels. De plus, dans les évaluations de modèles de base en anglais et en chinois, il est comparable à des modèles open-source puissants impliquant un plus grand nombre de FLOPs d'entraînement, tels que Llama2-70B et DeepSeek-67B. En plus des poids du modèle, nous partageons les conceptions principales, les pratiques d'ingénierie et les détails de l'entraînement, que nous espérons bénéfiques pour les communautés académiques et industrielles.
English
Large language models (LLMs) have showcased profound capabilities in language
understanding and generation, facilitating a wide array of applications.
However, there is a notable paucity of detailed, open-sourced methodologies on
efficiently scaling LLMs beyond 50 billion parameters with minimum
trial-and-error cost and computational resources. In this report, we introduce
Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that
features a stable, efficient pre-training paradigm and enhanced factual
judgment capabilities. Tele-FLM demonstrates superior multilingual language
modeling abilities, measured by BPB on textual corpus. Besides, in both English
and Chinese foundation model evaluation, it is comparable to strong
open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B
and DeepSeek-67B. In addition to the model weights, we share the core designs,
engineering practices, and training details, which we expect to benefit both
the academic and industrial communities.Summary
AI-Generated Summary