FLM-101B: Um Modelo de Linguagem Grande Aberto e Como Treiná-lo com um Orçamento de US$ 100 Mil

Resumo

Modelos de linguagem de grande escala (LLMs, na sigla em inglês) alcançaram sucesso notável em tarefas de PLN e multimodais. Apesar desses avanços, seu desenvolvimento enfrenta dois desafios principais: (i) alto custo computacional; e (ii) dificuldade em realizar avaliações justas e objetivas. LLMs são proibitivamente caros, tornando viável seu treinamento apenas para alguns grandes players, limitando tanto oportunidades de pesquisa quanto de aplicação. Isso ressalta a importância de um treinamento de LLMs com custo eficiente. Neste artigo, utilizamos uma estratégia de crescimento para reduzir significativamente o custo de treinamento de LLMs. Demonstramos que um LLM com 101 bilhões de parâmetros e 0,31 trilhão de tokens pode ser treinado com um orçamento de 100 mil dólares. Também adotamos um paradigma de avaliação sistemática para a avaliação de QI de LLMs, complementando avaliações existentes que focam mais em habilidades orientadas a conhecimento. Introduzimos nosso benchmark, incluindo avaliações de aspectos importantes da inteligência, como mapeamento simbólico, compreensão de regras, mineração de padrões e anti-interferência. Tais avaliações minimizam o impacto potencial da memorização. Resultados experimentais mostram que nosso modelo FLM-101B, treinado com um orçamento de 100 mil dólares, alcança desempenho comparável a modelos poderosos e bem conhecidos, como GPT-3 e GLM-130B, especialmente nas avaliações de QI com contextos não vistos nos dados de treinamento. O checkpoint do FLM-101B será disponibilizado como código aberto em https://huggingface.co/CofeAI/FLM-101B.

English

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a 100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of 100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.

FLM-101B: Um Modelo de Linguagem Grande Aberto e Como Treiná-lo com um Orçamento de US$ 100 Mil

FLM-101B: An Open LLM and How to Train It with $100K Budget

Resumo

Support