TinyLlama: Ein Open-Source-Kleines Sprachmodell
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Autoren: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Zusammenfassung
Wir präsentieren TinyLlama, ein kompaktes Sprachmodell mit 1,1 Milliarden Parametern, das auf etwa 1 Billion Tokens für ungefähr 3 Epochen vortrainiert wurde. Basierend auf der Architektur und dem Tokenizer von Llama 2 nutzt TinyLlama verschiedene Fortschritte, die von der Open-Source-Community beigetragen wurden (z. B. FlashAttention), und erreicht dadurch eine bessere Recheneffizienz. Trotz seiner relativ geringen Größe zeigt TinyLlama bemerkenswerte Leistungen in einer Reihe von Downstream-Aufgaben. Es übertrifft deutlich bestehende Open-Source-Sprachmodelle vergleichbarer Größe. Unsere Modell-Checkpoints und der Code sind öffentlich auf GitHub unter https://github.com/jzhang38/TinyLlama verfügbar.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.