TinyLlama: Un Modelo de Lenguaje Pequeño de Código Abierto
TinyLlama: An Open-Source Small Language Model
January 4, 2024
Autores: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI
Resumen
Presentamos TinyLlama, un modelo de lenguaje compacto de 1.1B preentrenado con aproximadamente 1 billón de tokens durante cerca de 3 épocas. Basado en la arquitectura y el tokenizador de Llama 2, TinyLlama aprovecha diversos avances aportados por la comunidad de código abierto (por ejemplo, FlashAttention), logrando una mayor eficiencia computacional. A pesar de su tamaño relativamente pequeño, TinyLlama demuestra un rendimiento notable en una serie de tareas posteriores. Supera significativamente a los modelos de lenguaje de código abierto existentes con tamaños comparables. Nuestros puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/jzhang38/TinyLlama.
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.