Relatório Técnico do Tele-FLM
Tele-FLM Technical Report
April 25, 2024
Autores: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades profundas em compreensão e geração de linguagem, facilitando uma ampla gama de aplicações. No entanto, há uma notável escassez de metodologias detalhadas e de código aberto sobre como escalar eficientemente LLMs além de 50 bilhões de parâmetros com custo mínimo de tentativa e erro e recursos computacionais. Neste relatório, apresentamos o Tele-FLM (também conhecido como FLM-2), um modelo de linguagem de grande escala multilíngue de 52 bilhões de parâmetros de código aberto que apresenta um paradigma de pré-treinamento estável e eficiente, além de capacidades aprimoradas de julgamento factual. O Tele-FLM demonstra habilidades superiores de modelagem de linguagem multilíngue, medidas por BPB em corpus textuais. Além disso, tanto na avaliação de modelos base em inglês quanto em chinês, ele é comparável a modelos de código aberto robustos que envolvem maiores FLOPs de pré-treinamento, como o Llama2-70B e o DeepSeek-67B. Além dos pesos do modelo, compartilhamos os principais designs, práticas de engenharia e detalhes de treinamento, que esperamos beneficiar tanto a comunidade acadêmica quanto a industrial.
English
Large language models (LLMs) have showcased profound capabilities in language
understanding and generation, facilitating a wide array of applications.
However, there is a notable paucity of detailed, open-sourced methodologies on
efficiently scaling LLMs beyond 50 billion parameters with minimum
trial-and-error cost and computational resources. In this report, we introduce
Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that
features a stable, efficient pre-training paradigm and enhanced factual
judgment capabilities. Tele-FLM demonstrates superior multilingual language
modeling abilities, measured by BPB on textual corpus. Besides, in both English
and Chinese foundation model evaluation, it is comparable to strong
open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B
and DeepSeek-67B. In addition to the model weights, we share the core designs,
engineering practices, and training details, which we expect to benefit both
the academic and industrial communities.