GEB-1.3B: Modelo de Lenguaje Grande Ligero de Código Abierto
GEB-1.3B: Open Lightweight Large Language Model
June 14, 2024
Autores: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) desarrollados recientemente, como ChatGPT, Claude y Llama, han demostrado capacidades impresionantes e incluso superan el rendimiento humano en varias tareas. A pesar de su éxito, las demandas intensivas de recursos de estos modelos, que requieren un poder computacional significativo tanto para el entrenamiento como para la inferencia, limitan su implementación a servidores de alto rendimiento. Además, los extensos requisitos de cálculo de los modelos a menudo resultan en una mayor latencia en los tiempos de respuesta. Con la creciente necesidad de que los LLMs operen de manera eficiente en CPUs, ha surgido investigación sobre modelos ligeros optimizados para la inferencia en CPU. En este trabajo, presentamos GEB-1.3B, un LLM ligero entrenado con 550 mil millones de tokens en idiomas chino e inglés. Empleamos técnicas novedosas de entrenamiento, como ROPE, Group-Query-Attention y FlashAttention-2, para acelerar el entrenamiento manteniendo el rendimiento del modelo. Además, ajustamos el modelo utilizando 10 millones de muestras de datos de instrucción para mejorar la alineación. GEB-1.3B exhibe un rendimiento sobresaliente en benchmarks generales como MMLU, C-Eval y CMMLU, superando a modelos comparativos como MindLLM-1.3B y TinyLLaMA-1.1B. Cabe destacar que la versión FP32 de GEB-1.3B logra tiempos de inferencia notables en CPUs, con esfuerzos en curso para mejorar aún más la velocidad mediante técnicas avanzadas de cuantización. El lanzamiento de GEB-1.3B como un modelo de código abierto marca una contribución significativa al desarrollo de LLMs ligeros, prometiendo fomentar una mayor investigación e innovación en el campo.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and
Llama have demonstrated impressive abilities, and even surpass human-level
performance in several tasks. Despite their success, the resource-intensive
demands of these models, requiring significant computational power for both
training and inference, limit their deployment to high-performance servers.
Additionally, the extensive calculation requirements of the models often lead
to increased latency in response times. With the increasing need for LLMs to
operate efficiently on CPUs, research about lightweight models that are
optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a
lightweight LLM trained on 550 billion tokens in both Chinese and English
languages. We employ novel training techniques, including ROPE,
Group-Query-Attention, and FlashAttention-2, to accelerate training while
maintaining model performance. Additionally, we fine-tune the model using 10
million samples of instruction data to enhance alignment. GEB-1.3B exhibits
outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU,
outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B.
Notably, the FP32 version of GEB-1.3B achieves commendable inference times on
CPUs, with ongoing efforts to further enhance speed through advanced
quantization techniques. The release of GEB-1.3B as an open-source model marks
a significant contribution to the development of lightweight LLMs, promising to
foster further research and innovation in the field.Summary
AI-Generated Summary