GEB-1.3B: Modelo de Linguagem Grande Leve e Aberto
GEB-1.3B: Open Lightweight Large Language Model
June 14, 2024
Autores: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) recentemente desenvolvidos, como ChatGPT, Claude e Llama, demonstraram habilidades impressionantes, superando até mesmo o desempenho humano em várias tarefas. Apesar de seu sucesso, as demandas intensivas de recursos desses modelos, que exigem poder computacional significativo tanto para treinamento quanto para inferência, limitam sua implantação a servidores de alto desempenho. Além disso, os extensos requisitos de cálculo dos modelos frequentemente resultam em maior latência nos tempos de resposta. Com a crescente necessidade de LLMs operarem de forma eficiente em CPUs, surgiram pesquisas sobre modelos leves otimizados para inferência em CPU. Neste trabalho, apresentamos o GEB-1.3B, um LLM leve treinado com 550 bilhões de tokens em idiomas chinês e inglês. Empregamos técnicas de treinamento inovadoras, incluindo ROPE, Group-Query-Attention e FlashAttention-2, para acelerar o treinamento enquanto mantemos o desempenho do modelo. Adicionalmente, ajustamos o modelo utilizando 10 milhões de amostras de dados de instrução para melhorar o alinhamento. O GEB-1.3B exibe desempenho excepcional em benchmarks gerais como MMLU, C-Eval e CMMLU, superando modelos comparativos como MindLLM-1.3B e TinyLLaMA-1.1B. Notavelmente, a versão FP32 do GEB-1.3B alcança tempos de inferência notáveis em CPUs, com esforços contínuos para aprimorar ainda mais a velocidade por meio de técnicas avançadas de quantização. O lançamento do GEB-1.3B como um modelo de código aberto representa uma contribuição significativa para o desenvolvimento de LLMs leves, promovendo pesquisas e inovações adicionais no campo.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and
Llama have demonstrated impressive abilities, and even surpass human-level
performance in several tasks. Despite their success, the resource-intensive
demands of these models, requiring significant computational power for both
training and inference, limit their deployment to high-performance servers.
Additionally, the extensive calculation requirements of the models often lead
to increased latency in response times. With the increasing need for LLMs to
operate efficiently on CPUs, research about lightweight models that are
optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a
lightweight LLM trained on 550 billion tokens in both Chinese and English
languages. We employ novel training techniques, including ROPE,
Group-Query-Attention, and FlashAttention-2, to accelerate training while
maintaining model performance. Additionally, we fine-tune the model using 10
million samples of instruction data to enhance alignment. GEB-1.3B exhibits
outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU,
outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B.
Notably, the FP32 version of GEB-1.3B achieves commendable inference times on
CPUs, with ongoing efforts to further enhance speed through advanced
quantization techniques. The release of GEB-1.3B as an open-source model marks
a significant contribution to the development of lightweight LLMs, promising to
foster further research and innovation in the field.