ChatPaper.aiChatPaper

Технический отчет по Tele-FLM

Tele-FLM Technical Report

April 25, 2024
Авторы: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang
cs.AI

Аннотация

Большие языковые модели (LLM) продемонстрировали глубокие способности в понимании и генерации языка, облегчая широкий спектр приложений. Однако существует заметный дефицит подробных методологий с открытым исходным кодом по эффективному масштабированию LLM свыше 50 миллиардов параметров с минимальными затратами на пробные запуски и вычислительные ресурсы. В данном отчете мы представляем Tele-FLM (также известную как FLM-2), 52B многоязычную открытую языковую модель, которая обладает стабильной, эффективной парадигмой предварительного обучения и улучшенными способностями к фактическому суждению. Tele-FLM демонстрирует превосходные многоязычные возможности моделирования языка, измеренные по BPB на текстовом корпусе. Кроме того, как в оценке английской, так и китайской фундаментальных моделей, она сравнима с мощными моделями с открытым исходным кодом, включающими более крупные FLOPs предварительного обучения, такими как Llama2-70B и DeepSeek-67B. Помимо весов модели, мы делимся основными конструкциями, инженерными практиками и деталями обучения, которые, как мы надеемся, принесут пользу как академическому, так и промышленному сообществу.
English
Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.

Summary

AI-Generated Summary

PDF181December 15, 2024