JetMoE: Alcanzando el rendimiento de Llama2 con 0.1 millones de dólares
JetMoE: Reaching Llama2 Performance with 0.1M Dollars
April 11, 2024
Autores: Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado resultados notables, pero su creciente demanda de recursos se ha convertido en un obstáculo importante para el desarrollo de una inteligencia superhumana potente y accesible. Este informe presenta JetMoE-8B, un nuevo LLM entrenado con menos de $0.1 millones, utilizando 1.25 billones de tokens de corpus de código abierto cuidadosamente seleccionados y 30,000 horas de GPU H100. A pesar de su bajo costo, JetMoE-8B demuestra un rendimiento impresionante, superando al modelo Llama2-7B, mientras que JetMoE-8B-Chat supera al modelo Llama2-13B-Chat. Estos resultados sugieren que el entrenamiento de LLMs puede ser mucho más rentable de lo que generalmente se piensa. JetMoE-8B se basa en una arquitectura eficiente de Mezcla de Expertos con Compuertas Dispersas (SMoE, por sus siglas en inglés), compuesta por expertos de atención y redes feedforward. Ambas capas se activan de manera dispersa, lo que permite que JetMoE-8B tenga 8 mil millones de parámetros mientras solo activa 2 mil millones para cada token de entrada, reduciendo el cómputo de inferencia en aproximadamente un 70% en comparación con Llama2-7B. Además, JetMoE-8B es altamente abierto y amigable para el ámbito académico, utilizando únicamente conjuntos de datos públicos y código de entrenamiento. Todos los parámetros de entrenamiento y las mezclas de datos se han detallado en este informe para facilitar futuros esfuerzos en el desarrollo de modelos base abiertos. Esta transparencia tiene como objetivo fomentar la colaboración y avances adicionales en el campo de los LLMs accesibles y eficientes. Los pesos del modelo están disponibles públicamente en https://github.com/myshell-ai/JetMoE.
English
Large Language Models (LLMs) have achieved remarkable results, but their
increasing resource demand has become a major obstacle to the development of
powerful and accessible super-human intelligence. This report introduces
JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens
from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its
low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B
outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the
Llama2-13B-Chat model. These results suggest that LLM training can be much more
cost-effective than generally thought. JetMoE-8B is based on an efficient
Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention
and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B
to have 8B parameters while only activating 2B for each input token, reducing
inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B
is highly open and academia-friendly, using only public datasets and training
code. All training parameters and data mixtures have been detailed in this
report to facilitate future efforts in the development of open foundation
models. This transparency aims to encourage collaboration and further
advancements in the field of accessible and efficient LLMs. The model weights
are publicly available at https://github.com/myshell-ai/JetMoE.Summary
AI-Generated Summary