ChatPaper.aiChatPaper

GEB-1.3B: Открытая легкая крупномасштабная языковая модель

GEB-1.3B: Open Lightweight Large Language Model

June 14, 2024
Авторы: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI

Аннотация

Недавно разработанные большие языковые модели (LLM), такие как ChatGPT, Claude и Llama, продемонстрировали впечатляющие способности, даже превосходя уровень человека в нескольких задачах. Несмотря на их успех, ресурсоемкие требования этих моделей, требующие значительной вычислительной мощности как для обучения, так и для вывода, ограничивают их применение до высокопроизводительных серверов. Кроме того, обширные вычислительные требования моделей часто приводят к увеличению задержки во времени ответа. С увеличением потребности в эффективной работе LLM на ЦПУ возникли исследования легких моделей, оптимизированных для вывода на ЦПУ. В данной работе мы представляем GEB-1.3B, легкую LLM, обученную на 550 миллиардах токенов на китайском и английском языках. Мы используем новые методики обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности модели. Кроме того, мы дообучаем модель, используя 10 миллионов образцов инструкционных данных для улучшения выравнивания. GEB-1.3B проявляет выдающуюся производительность на общих бенчмарках, таких как MMLU, C-Eval и CMMLU, превосходя сравнительные модели, такие как MindLLM-1.3B и TinyLLaMA-1.1B. Особенно стоит отметить, что версия FP32 GEB-1.3B достигает похвальных времен вывода на ЦПУ, идут постоянные усилия по дальнейшему увеличению скорости через передовые техники квантования. Выпуск GEB-1.3B в качестве открытой модели является значительным вкладом в развитие легких LLM, обещая способствовать дальнейшим исследованиям и инновациям в этой области.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and Llama have demonstrated impressive abilities, and even surpass human-level performance in several tasks. Despite their success, the resource-intensive demands of these models, requiring significant computational power for both training and inference, limit their deployment to high-performance servers. Additionally, the extensive calculation requirements of the models often lead to increased latency in response times. With the increasing need for LLMs to operate efficiently on CPUs, research about lightweight models that are optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a lightweight LLM trained on 550 billion tokens in both Chinese and English languages. We employ novel training techniques, including ROPE, Group-Query-Attention, and FlashAttention-2, to accelerate training while maintaining model performance. Additionally, we fine-tune the model using 10 million samples of instruction data to enhance alignment. GEB-1.3B exhibits outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU, outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B. Notably, the FP32 version of GEB-1.3B achieves commendable inference times on CPUs, with ongoing efforts to further enhance speed through advanced quantization techniques. The release of GEB-1.3B as an open-source model marks a significant contribution to the development of lightweight LLMs, promising to foster further research and innovation in the field.

Summary

AI-Generated Summary

PDF213December 6, 2024