ChatPaper.aiChatPaper

TinyLlama: オープンソースの小型言語モデル

TinyLlama: An Open-Source Small Language Model

January 4, 2024
著者: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
cs.AI

要旨

私たちは、約1兆トークンを約3エポックにわたって事前学習したコンパクトな1.1B言語モデル「TinyLlama」を紹介します。TinyLlamaは、Llama 2のアーキテクチャとトークナイザーを基盤としており、オープンソースコミュニティが貢献したさまざまな進歩(例:FlashAttention)を活用し、より優れた計算効率を実現しています。比較的小さなサイズにもかかわらず、TinyLlamaは一連の下流タスクで顕著なパフォーマンスを示します。同規模の既存のオープンソース言語モデルを大幅に上回る性能を発揮します。私たちのモデルチェックポイントとコードは、GitHub(https://github.com/jzhang38/TinyLlama)で公開されています。
English
We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.
PDF9514December 15, 2024