TinyLlama: Een Open-Source Klein Taalmodel

Samenvatting

We presenteren TinyLlama, een compact taalmodel van 1,1 miljard parameters dat vooraf is getraind op ongeveer 1 biljoen tokens gedurende ongeveer 3 epochs. Gebaseerd op de architectuur en tokenizer van Llama 2, maakt TinyLlama gebruik van diverse vooruitgangen die door de open-source gemeenschap zijn bijgedragen (bijvoorbeeld FlashAttention), wat resulteert in een betere computationele efficiëntie. Ondanks zijn relatief kleine omvang, toont TinyLlama opmerkelijke prestaties in een reeks downstream taken. Het overtreft aanzienlijk bestaande open-source taalmodelen van vergelijkbare grootte. Onze modelcheckpoints en code zijn openbaar beschikbaar op GitHub via https://github.com/jzhang38/TinyLlama.

English

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.

TinyLlama: Een Open-Source Klein Taalmodel

TinyLlama: An Open-Source Small Language Model

Samenvatting

Support