Rapporto Tecnico Tele-FLM

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità profonde nella comprensione e generazione del linguaggio, facilitando una vasta gamma di applicazioni. Tuttavia, si osserva una notevole carenza di metodologie dettagliate e open-source su come scalare efficientemente gli LLM oltre i 50 miliardi di parametri con un costo minimo di tentativi ed errori e risorse computazionali. In questo rapporto, presentiamo Tele-FLM (noto anche come FLM-2), un modello linguistico multilingue open-source da 52 miliardi di parametri che presenta un paradigma di pre-addestramento stabile ed efficiente e capacità avanzate di giudizio fattuale. Tele-FLM dimostra abilità superiori nella modellazione linguistica multilingue, misurate dal BPB su corpus testuali. Inoltre, sia nella valutazione dei modelli di base in inglese che in cinese, è paragonabile a modelli open-source robusti che coinvolgono un numero maggiore di FLOP di pre-addestramento, come Llama2-70B e DeepSeek-67B. Oltre ai pesi del modello, condividiamo i progetti principali, le pratiche ingegneristiche e i dettagli dell'addestramento, che ci aspettiamo possano beneficiare sia la comunità accademica che quella industriale.

English

Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.

Rapporto Tecnico Tele-FLM

Tele-FLM Technical Report

Abstract

Support