TinyLlama: Een Open-Source Klein Taalmodel
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Auteurs: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Samenvatting
We presenteren TinyLlama, een compact taalmodel van 1,1 miljard parameters dat vooraf is getraind op ongeveer 1 biljoen tokens gedurende ongeveer 3 epochs. Gebaseerd op de architectuur en tokenizer van Llama 2, maakt TinyLlama gebruik van diverse vooruitgangen die door de open-source gemeenschap zijn bijgedragen (bijvoorbeeld FlashAttention), wat resulteert in een betere computationele efficiëntie. Ondanks zijn relatief kleine omvang, toont TinyLlama opmerkelijke prestaties in een reeks downstream taken. Het overtreft aanzienlijk bestaande open-source taalmodelen van vergelijkbare grootte. Onze modelcheckpoints en code zijn openbaar beschikbaar op GitHub via https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.