Technischer Bericht zu Tele-FLM
Tele-FLM Technical Report
April 25, 2024
Autoren: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Sprachverarbeitung und -generierung gezeigt, was eine Vielzahl von Anwendungen ermöglicht. Es besteht jedoch ein deutlicher Mangel an detaillierten, quelloffenen Methoden zur effizienten Skalierung von LLMs über 50 Milliarden Parametern hinaus, mit minimalen Versuchs- und Rechenressourcen. In diesem Bericht stellen wir Tele-FLM (auch bekannt als FLM-2) vor, ein 52B quelloffenes, multilinguales großes Sprachmodell, das über ein stabiles, effizientes Vor-Trainingsschema und verbesserte faktische Beurteilungsfähigkeiten verfügt. Tele-FLM zeigt überlegene multilinguale Sprachmodellierungsfähigkeiten, gemessen an BPB auf Textkorpora. Darüber hinaus ist es sowohl in der Bewertung des englischen als auch des chinesischen Grundlagenmodells mit starken quelloffenen Modellen vergleichbar, die größere Vor-Training FLOPs beinhalten, wie z.B. Llama2-70B und DeepSeek-67B. Neben den Modellgewichten teilen wir die Kernkonzepte, technischen Praktiken und Trainingsdetails, von denen wir sowohl in der akademischen als auch in der industriellen Gemeinschaft einen Nutzen erwarten.
English
Large language models (LLMs) have showcased profound capabilities in language
understanding and generation, facilitating a wide array of applications.
However, there is a notable paucity of detailed, open-sourced methodologies on
efficiently scaling LLMs beyond 50 billion parameters with minimum
trial-and-error cost and computational resources. In this report, we introduce
Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that
features a stable, efficient pre-training paradigm and enhanced factual
judgment capabilities. Tele-FLM demonstrates superior multilingual language
modeling abilities, measured by BPB on textual corpus. Besides, in both English
and Chinese foundation model evaluation, it is comparable to strong
open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B
and DeepSeek-67B. In addition to the model weights, we share the core designs,
engineering practices, and training details, which we expect to benefit both
the academic and industrial communities.Summary
AI-Generated Summary