TinyLlama: Открытая малая языковая модель
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Авторы: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Аннотация
Мы представляем TinyLlama — компактную языковую модель с 1,1 миллиардами параметров, предобученную на примерно 1 триллионе токенов в течение приблизительно 3 эпох. Основанная на архитектуре и токенизаторе Llama 2, TinyLlama использует различные достижения, предложенные сообществом открытого исходного кода (например, FlashAttention), что позволяет достичь более высокой вычислительной эффективности. Несмотря на относительно небольшой размер, TinyLlama демонстрирует впечатляющие результаты в ряде задач последующего обучения. Она значительно превосходит существующие открытые языковые модели сопоставимого размера. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.