TinyLlama: Um Modelo de Linguagem Pequeno de Código Aberto
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Autores: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Resumo
Apresentamos o TinyLlama, um modelo de linguagem compacto de 1,1B de parâmetros, pré-treinado em aproximadamente 1 trilhão de tokens por cerca de 3 épocas. Baseando-se na arquitetura e no tokenizador do Llama 2, o TinyLlama aproveita diversos avanços contribuídos pela comunidade de código aberto (por exemplo, FlashAttention), alcançando uma melhor eficiência computacional. Apesar de seu tamanho relativamente pequeno, o TinyLlama demonstra um desempenho notável em uma série de tarefas subsequentes. Ele supera significativamente os modelos de linguagem de código aberto existentes com tamanhos comparáveis. Nossos checkpoints do modelo e o código estão disponíveis publicamente no GitHub em https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.