ChatPaper.aiChatPaper

JetMoE: Alcançando o Desempenho do Llama2 com 0,1 Milhão de Dólares

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

April 11, 2024
Autores: Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm alcançado resultados notáveis, mas sua crescente demanda por recursos tornou-se um grande obstáculo para o desenvolvimento de uma inteligência super-humana poderosa e acessível. Este relatório apresenta o JetMoE-8B, um novo LLM treinado com menos de US$ 100 mil, utilizando 1,25 trilhão de tokens de corpora de código aberto cuidadosamente misturados e 30.000 horas de GPU H100. Apesar do baixo custo, o JetMoE-8B demonstra um desempenho impressionante, com o JetMoE-8B superando o modelo Llama2-7B e o JetMoE-8B-Chat ultrapassando o modelo Llama2-13B-Chat. Esses resultados sugerem que o treinamento de LLMs pode ser muito mais econômico do que geralmente se pensa. O JetMoE-8B é baseado em uma arquitetura eficiente de Mistura de Especialistas com Ativação Esparsa (SMoE), composta por especialistas de atenção e feedforward. Ambas as camadas são esparsamente ativadas, permitindo que o JetMoE-8B tenha 8 bilhões de parâmetros, mas ative apenas 2 bilhões para cada token de entrada, reduzindo a computação de inferência em cerca de 70% em comparação com o Llama2-7B. Além disso, o JetMoE-8B é altamente aberto e amigável para a academia, utilizando apenas conjuntos de dados públicos e código de treinamento. Todos os parâmetros de treinamento e misturas de dados foram detalhados neste relatório para facilitar futuros esforços no desenvolvimento de modelos de base abertos. Essa transparência visa incentivar a colaboração e avanços adicionais no campo de LLMs acessíveis e eficientes. Os pesos do modelo estão publicamente disponíveis em https://github.com/myshell-ai/JetMoE.
English
Large Language Models (LLMs) have achieved remarkable results, but their increasing resource demand has become a major obstacle to the development of powerful and accessible super-human intelligence. This report introduces JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the Llama2-13B-Chat model. These results suggest that LLM training can be much more cost-effective than generally thought. JetMoE-8B is based on an efficient Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B to have 8B parameters while only activating 2B for each input token, reducing inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B is highly open and academia-friendly, using only public datasets and training code. All training parameters and data mixtures have been detailed in this report to facilitate future efforts in the development of open foundation models. This transparency aims to encourage collaboration and further advancements in the field of accessible and efficient LLMs. The model weights are publicly available at https://github.com/myshell-ai/JetMoE.
PDF384December 15, 2024