TinyLlama : Un modèle de langage compact open-source
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Auteurs: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Résumé
Nous présentons TinyLlama, un modèle de langage compact de 1,1 milliard de paramètres pré-entraîné sur environ 1 trillion de tokens pour approximativement 3 époques. S'appuyant sur l'architecture et le tokenizer de Llama 2, TinyLlama tire parti de diverses avancées contribuées par la communauté open-source (par exemple, FlashAttention), atteignant ainsi une meilleure efficacité computationnelle. Malgré sa taille relativement réduite, TinyLlama démontre des performances remarquables dans une série de tâches en aval. Il surpasse significativement les modèles de langage open-source existants de tailles comparables. Nos points de contrôle de modèle et notre code sont disponibles publiquement sur GitHub à l'adresse suivante : https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.