TinyLlama: Открытая малая языковая модель

Аннотация

Мы представляем TinyLlama — компактную языковую модель с 1,1 миллиардами параметров, предобученную на примерно 1 триллионе токенов в течение приблизительно 3 эпох. Основанная на архитектуре и токенизаторе Llama 2, TinyLlama использует различные достижения, предложенные сообществом открытого исходного кода (например, FlashAttention), что позволяет достичь более высокой вычислительной эффективности. Несмотря на относительно небольшой размер, TinyLlama демонстрирует впечатляющие результаты в ряде задач последующего обучения. Она значительно превосходит существующие открытые языковые модели сопоставимого размера. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/jzhang38/TinyLlama.

English

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.

TinyLlama: Открытая малая языковая модель

TinyLlama: An Open-Source Small Language Model

Аннотация

Support