ChatPaper.aiChatPaper

GEB-1.3B: Open Lichtgewicht Taalmodel op Schaal

GEB-1.3B: Open Lightweight Large Language Model

June 14, 2024
Auteurs: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI

Samenvatting

Onlangs ontwikkelde grote taalmodellen (LLM's) zoals ChatGPT, Claude en Llama hebben indrukwekkende vaardigheden getoond en overtreffen zelfs menselijk prestatieniveau in verschillende taken. Ondanks hun succes beperken de resource-intensieve eisen van deze modellen, die aanzienlijke rekenkracht vereisen voor zowel training als inferentie, hun inzet tot hoogwaardige servers. Bovendien leiden de uitgebreide rekenvereisten van de modellen vaak tot verhoogde latentie in reactietijden. Met de groeiende behoefte aan LLM's die efficiënt op CPU's kunnen werken, is onderzoek naar lichtgewicht modellen die zijn geoptimaliseerd voor CPU-inferentie ontstaan. In dit werk introduceren we GEB-1.3B, een lichtgewicht LLM getraind op 550 miljard tokens in zowel het Chinees als het Engels. We gebruiken nieuwe trainingstechnieken, waaronder ROPE, Group-Query-Attention en FlashAttention-2, om de training te versnellen terwijl de modelprestaties behouden blijven. Daarnaast finetunen we het model met 10 miljoen voorbeelden van instructiedata om de afstemming te verbeteren. GEB-1.3B toont uitstekende prestaties op algemene benchmarks zoals MMLU, C-Eval en CMMLU, en overtreft vergelijkbare modellen zoals MindLLM-1.3B en TinyLLaMA-1.1B. Opmerkelijk is dat de FP32-versie van GEB-1.3B lovenswaardige inferentietijden op CPU's bereikt, met voortdurende inspanningen om de snelheid verder te verbeteren door geavanceerde kwantificeringstechnieken. De release van GEB-1.3B als een open-source model markeert een belangrijke bijdrage aan de ontwikkeling van lichtgewicht LLM's, wat belooft verder onderzoek en innovatie op dit gebied te stimuleren.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and Llama have demonstrated impressive abilities, and even surpass human-level performance in several tasks. Despite their success, the resource-intensive demands of these models, requiring significant computational power for both training and inference, limit their deployment to high-performance servers. Additionally, the extensive calculation requirements of the models often lead to increased latency in response times. With the increasing need for LLMs to operate efficiently on CPUs, research about lightweight models that are optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a lightweight LLM trained on 550 billion tokens in both Chinese and English languages. We employ novel training techniques, including ROPE, Group-Query-Attention, and FlashAttention-2, to accelerate training while maintaining model performance. Additionally, we fine-tune the model using 10 million samples of instruction data to enhance alignment. GEB-1.3B exhibits outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU, outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B. Notably, the FP32 version of GEB-1.3B achieves commendable inference times on CPUs, with ongoing efforts to further enhance speed through advanced quantization techniques. The release of GEB-1.3B as an open-source model marks a significant contribution to the development of lightweight LLMs, promising to foster further research and innovation in the field.
PDF213January 17, 2026