TinyLlama: Un Modello Linguistico Piccolo Open-Source
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Autori: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Abstract
Presentiamo TinyLlama, un modello linguistico compatto da 1,1 miliardi di parametri pre-addestrato su circa 1 trilione di token per approssimativamente 3 epoche. Basandosi sull'architettura e sul tokenizer di Llama 2, TinyLlama sfrutta vari progressi contribuiti dalla comunità open-source (ad esempio, FlashAttention), raggiungendo una migliore efficienza computazionale. Nonostante le sue dimensioni relativamente ridotte, TinyLlama dimostra prestazioni notevoli in una serie di task downstream. Supera significativamente i modelli linguistici open-source esistenti di dimensioni comparabili. I nostri checkpoint del modello e il codice sono disponibili pubblicamente su GitHub all'indirizzo https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.