JetMoE: Достижение производительности Llama2 за 0.1 миллиона долларов

Аннотация

Большие языковые модели (LLM) достигли выдающихся результатов, но их растущий запрос ресурсов стал серьезным препятствием для развития мощного и доступного сверхчеловеческого интеллекта. В данном отчете представлена JetMoE-8B, новая LLM, обученная менее чем за 0.1 миллиона долларов, используя 1.25T токенов из тщательно смешанных корпусов с открытым исходным кодом и 30,000 часов H100 GPU. Несмотря на свою низкую стоимость, JetMoE-8B демонстрирует впечатляющую производительность, превосходя модель Llama2-7B, а JetMoE-8B-Chat превосходит модель Llama2-13B-Chat. Эти результаты показывают, что обучение LLM может быть гораздо более экономичным, чем обычно считается. JetMoE-8B основана на эффективной архитектуре Разреженной смеси экспертов (SMoE), состоящей из экспертов внимания и прямого распространения. Обе слои активируются разреженно, что позволяет JetMoE-8B иметь 8B параметров, активируя только 2B для каждого входного токена, сокращая вычисления вывода примерно на 70% по сравнению с Llama2-7B. Более того, JetMoE-8B является открытой и дружественной к академическому сообществу, используя только общедоступные наборы данных и код обучения. Все параметры обучения и комбинации данных подробно описаны в данном отчете для облегчения будущих усилий в развитии открытых базовых моделей. Эта прозрачность направлена на поощрение сотрудничества и дальнейшего развития в области доступных и эффективных LLM. Веса модели доступны публично по ссылке https://github.com/myshell-ai/JetMoE.

English

Large Language Models (LLMs) have achieved remarkable results, but their increasing resource demand has become a major obstacle to the development of powerful and accessible super-human intelligence. This report introduces JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the Llama2-13B-Chat model. These results suggest that LLM training can be much more cost-effective than generally thought. JetMoE-8B is based on an efficient Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B to have 8B parameters while only activating 2B for each input token, reducing inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B is highly open and academia-friendly, using only public datasets and training code. All training parameters and data mixtures have been detailed in this report to facilitate future efforts in the development of open foundation models. This transparency aims to encourage collaboration and further advancements in the field of accessible and efficient LLMs. The model weights are publicly available at https://github.com/myshell-ai/JetMoE.

JetMoE: Достижение производительности Llama2 за 0.1 миллиона долларов

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

Аннотация

Support