Relatório Técnico do Tele-FLM

Resumo

Modelos de linguagem de grande escala (LLMs) demonstraram capacidades profundas em compreensão e geração de linguagem, facilitando uma ampla gama de aplicações. No entanto, há uma notável escassez de metodologias detalhadas e de código aberto sobre como escalar eficientemente LLMs além de 50 bilhões de parâmetros com custo mínimo de tentativa e erro e recursos computacionais. Neste relatório, apresentamos o Tele-FLM (também conhecido como FLM-2), um modelo de linguagem de grande escala multilíngue de 52 bilhões de parâmetros de código aberto que apresenta um paradigma de pré-treinamento estável e eficiente, além de capacidades aprimoradas de julgamento factual. O Tele-FLM demonstra habilidades superiores de modelagem de linguagem multilíngue, medidas por BPB em corpus textuais. Além disso, tanto na avaliação de modelos base em inglês quanto em chinês, ele é comparável a modelos de código aberto robustos que envolvem maiores FLOPs de pré-treinamento, como o Llama2-70B e o DeepSeek-67B. Além dos pesos do modelo, compartilhamos os principais designs, práticas de engenharia e detalhes de treinamento, que esperamos beneficiar tanto a comunidade acadêmica quanto a industrial.

English

Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.

Relatório Técnico do Tele-FLM

Tele-FLM Technical Report

Resumo

Support