ChatPaper.aiChatPaper

TinyLlama: Ein Open-Source-Kleines Sprachmodell

TinyLlama: An Open-Source Small Language Model

January 4, 2024
Autoren: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI

Zusammenfassung

Wir präsentieren TinyLlama, ein kompaktes Sprachmodell mit 1,1 Milliarden Parametern, das auf etwa 1 Billion Tokens für ungefähr 3 Epochen vortrainiert wurde. Basierend auf der Architektur und dem Tokenizer von Llama 2 nutzt TinyLlama verschiedene Fortschritte, die von der Open-Source-Community beigetragen wurden (z. B. FlashAttention), und erreicht dadurch eine bessere Recheneffizienz. Trotz seiner relativ geringen Größe zeigt TinyLlama bemerkenswerte Leistungen in einer Reihe von Downstream-Aufgaben. Es übertrifft deutlich bestehende Open-Source-Sprachmodelle vergleichbarer Größe. Unsere Modell-Checkpoints und der Code sind öffentlich auf GitHub unter https://github.com/jzhang38/TinyLlama verfügbar.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.
PDF9514December 15, 2024