ChatPaper.aiChatPaper

Rapporto Tecnico Tele-FLM

Tele-FLM Technical Report

April 25, 2024
Autori: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità profonde nella comprensione e generazione del linguaggio, facilitando una vasta gamma di applicazioni. Tuttavia, si osserva una notevole carenza di metodologie dettagliate e open-source su come scalare efficientemente gli LLM oltre i 50 miliardi di parametri con un costo minimo di tentativi ed errori e risorse computazionali. In questo rapporto, presentiamo Tele-FLM (noto anche come FLM-2), un modello linguistico multilingue open-source da 52 miliardi di parametri che presenta un paradigma di pre-addestramento stabile ed efficiente e capacità avanzate di giudizio fattuale. Tele-FLM dimostra abilità superiori nella modellazione linguistica multilingue, misurate dal BPB su corpus testuali. Inoltre, sia nella valutazione dei modelli di base in inglese che in cinese, è paragonabile a modelli open-source robusti che coinvolgono un numero maggiore di FLOP di pre-addestramento, come Llama2-70B e DeepSeek-67B. Oltre ai pesi del modello, condividiamo i progetti principali, le pratiche ingegneristiche e i dettagli dell'addestramento, che ci aspettiamo possano beneficiare sia la comunità accademica che quella industriale.
English
Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.
PDF181February 28, 2026