ChatPaper.aiChatPaper

TinyLlama : Un modèle de langage compact open-source

TinyLlama: An Open-Source Small Language Model

January 4, 2024
Auteurs: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI

Résumé

Nous présentons TinyLlama, un modèle de langage compact de 1,1 milliard de paramètres pré-entraîné sur environ 1 trillion de tokens pour approximativement 3 époques. S'appuyant sur l'architecture et le tokenizer de Llama 2, TinyLlama tire parti de diverses avancées contribuées par la communauté open-source (par exemple, FlashAttention), atteignant ainsi une meilleure efficacité computationnelle. Malgré sa taille relativement réduite, TinyLlama démontre des performances remarquables dans une série de tâches en aval. Il surpasse significativement les modèles de langage open-source existants de tailles comparables. Nos points de contrôle de modèle et notre code sont disponibles publiquement sur GitHub à l'adresse suivante : https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.
PDF9514December 15, 2024