ChatPaper.aiChatPaper

FLM-101B: Открытая языковая модель и её обучение с бюджетом в $100K

FLM-101B: An Open LLM and How to Train It with $100K Budget

September 7, 2023
Авторы: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang
cs.AI

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов в задачах обработки естественного языка (NLP) и мультимодальных задачах. Несмотря на эти достижения, их разработка сталкивается с двумя основными проблемами: (i) высокая вычислительная стоимость; и (ii) сложность проведения справедливой и объективной оценки. LLM чрезвычайно дороги в обучении, что делает их разработку доступной лишь для нескольких крупных игроков, тем самым ограничивая возможности как исследований, так и практического применения. Это подчеркивает важность разработки экономически эффективных методов обучения LLM. В данной статье мы используем стратегию роста для значительного снижения стоимости обучения LLM. Мы демонстрируем, что модель с 101 миллиардом параметров и 0,31 триллиона токенов может быть обучена с бюджетом в 100 тысяч долларов. Мы также применяем систематический подход к оценке IQ LLM, дополняя существующие методы, которые в большей степени ориентированы на проверку знаний. Мы представляем наш бенчмарк, включающий оценку важных аспектов интеллекта, таких как символическое отображение, понимание правил, поиск закономерностей и устойчивость к помехам. Такие оценки минимизируют потенциальное влияние запоминания данных. Экспериментальные результаты показывают, что наша модель FLM-101B, обученная с бюджетом в 100 тысяч долларов, демонстрирует сопоставимую производительность с мощными и известными моделями, такими как GPT-3 и GLM-130B, особенно в тестах IQ, где используются контексты, не встречавшиеся в обучающих данных. Чекпоинт модели FLM-101B будет опубликован по адресу: https://huggingface.co/CofeAI/FLM-101B.
English
Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a 100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of 100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
PDF441December 15, 2024