Technisch Rapport Tele-FLM
Tele-FLM Technical Report
April 25, 2024
Auteurs: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben indrukwekkende capaciteiten getoond op het gebied van taalbegrip en -generatie, wat een breed scala aan toepassingen mogelijk maakt. Er is echter een opvallend gebrek aan gedetailleerde, open-source methodologieën voor het efficiënt schalen van LLMs voorbij 50 miljard parameters met minimale trial-and-error kosten en rekenkundige middelen. In dit rapport introduceren we Tele-FLM (ook bekend als FLM-2), een 52B open-source meertalig groot taalmodel dat een stabiel, efficiënt pre-trainingsparadigma en verbeterde feitelijke beoordelingscapaciteiten biedt. Tele-FLM toont superieure meertalige taalmodelleringsvaardigheden, gemeten door BPB op tekstuele corpora. Daarnaast is het in zowel Engelse als Chinese foundation model-evaluaties vergelijkbaar met sterke open-source modellen die grotere pre-trainings FLOPs omvatten, zoals Llama2-70B en DeepSeek-67B. Naast de modelgewichten delen we de kernontwerpen, engineeringpraktijken en trainingsdetails, waarvan we verwachten dat ze zowel de academische als industriële gemeenschappen ten goede zullen komen.
English
Large language models (LLMs) have showcased profound capabilities in language
understanding and generation, facilitating a wide array of applications.
However, there is a notable paucity of detailed, open-sourced methodologies on
efficiently scaling LLMs beyond 50 billion parameters with minimum
trial-and-error cost and computational resources. In this report, we introduce
Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that
features a stable, efficient pre-training paradigm and enhanced factual
judgment capabilities. Tele-FLM demonstrates superior multilingual language
modeling abilities, measured by BPB on textual corpus. Besides, in both English
and Chinese foundation model evaluation, it is comparable to strong
open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B
and DeepSeek-67B. In addition to the model weights, we share the core designs,
engineering practices, and training details, which we expect to benefit both
the academic and industrial communities.