JetMoE: Raggiungere le prestazioni di Llama2 con 0,1 milioni di dollari

Abstract

I Large Language Model (LLM) hanno ottenuto risultati straordinari, ma la loro crescente richiesta di risorse è diventata un ostacolo significativo per lo sviluppo di un'intelligenza superumana potente e accessibile. Questo rapporto introduce JetMoE-8B, un nuovo LLM addestrato con meno di 0,1 milioni di dollari, utilizzando 1,25 trilioni di token provenienti da corpora open-source accuratamente miscelati e 30.000 ore di GPU H100. Nonostante il basso costo, JetMoE-8B dimostra prestazioni impressionanti, con JetMoE-8B che supera il modello Llama2-7B e JetMoE-8B-Chat che supera il modello Llama2-13B-Chat. Questi risultati suggeriscono che l'addestramento degli LLM può essere molto più conveniente di quanto generalmente si pensi. JetMoE-8B si basa su un'architettura efficiente di Sparsely-gated Mixture-of-Experts (SMoE), composta da esperti di attenzione e feedforward. Entrambi i livelli sono attivati in modo sparso, consentendo a JetMoE-8B di avere 8 miliardi di parametri mentre ne attiva solo 2 miliardi per ogni token di input, riducendo il calcolo di inferenza di circa il 70% rispetto a Llama2-7B. Inoltre, JetMoE-8B è altamente aperto e favorevole al mondo accademico, utilizzando solo dataset pubblici e codice di addestramento. Tutti i parametri di addestramento e le miscele di dati sono stati dettagliati in questo rapporto per facilitare futuri sforzi nello sviluppo di modelli di base aperti. Questa trasparenza mira a incoraggiare la collaborazione e ulteriori progressi nel campo degli LLM accessibili ed efficienti. I pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/myshell-ai/JetMoE.

English

Large Language Models (LLMs) have achieved remarkable results, but their increasing resource demand has become a major obstacle to the development of powerful and accessible super-human intelligence. This report introduces JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the Llama2-13B-Chat model. These results suggest that LLM training can be much more cost-effective than generally thought. JetMoE-8B is based on an efficient Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B to have 8B parameters while only activating 2B for each input token, reducing inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B is highly open and academia-friendly, using only public datasets and training code. All training parameters and data mixtures have been detailed in this report to facilitate future efforts in the development of open foundation models. This transparency aims to encourage collaboration and further advancements in the field of accessible and efficient LLMs. The model weights are publicly available at https://github.com/myshell-ai/JetMoE.

JetMoE: Raggiungere le prestazioni di Llama2 con 0,1 milioni di dollari

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

Abstract

Support