ChatPaper.aiChatPaper

FLM-101B: Um Modelo de Linguagem Grande Aberto e Como Treiná-lo com um Orçamento de US$ 100 Mil

FLM-101B: An Open LLM and How to Train It with $100K Budget

September 7, 2023
Autores: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs, na sigla em inglês) alcançaram sucesso notável em tarefas de PLN e multimodais. Apesar desses avanços, seu desenvolvimento enfrenta dois desafios principais: (i) alto custo computacional; e (ii) dificuldade em realizar avaliações justas e objetivas. LLMs são proibitivamente caros, tornando viável seu treinamento apenas para alguns grandes players, limitando tanto oportunidades de pesquisa quanto de aplicação. Isso ressalta a importância de um treinamento de LLMs com custo eficiente. Neste artigo, utilizamos uma estratégia de crescimento para reduzir significativamente o custo de treinamento de LLMs. Demonstramos que um LLM com 101 bilhões de parâmetros e 0,31 trilhão de tokens pode ser treinado com um orçamento de 100 mil dólares. Também adotamos um paradigma de avaliação sistemática para a avaliação de QI de LLMs, complementando avaliações existentes que focam mais em habilidades orientadas a conhecimento. Introduzimos nosso benchmark, incluindo avaliações de aspectos importantes da inteligência, como mapeamento simbólico, compreensão de regras, mineração de padrões e anti-interferência. Tais avaliações minimizam o impacto potencial da memorização. Resultados experimentais mostram que nosso modelo FLM-101B, treinado com um orçamento de 100 mil dólares, alcança desempenho comparável a modelos poderosos e bem conhecidos, como GPT-3 e GLM-130B, especialmente nas avaliações de QI com contextos não vistos nos dados de treinamento. O checkpoint do FLM-101B será disponibilizado como código aberto em https://huggingface.co/CofeAI/FLM-101B.
English
Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a 100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of 100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
PDF441December 15, 2024