TigerBot: Un Modello Linguistico Multilingue e Multitask Open Source
TigerBot: An Open Multilingual Multitask LLM
December 14, 2023
Autori: Ye Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu
cs.AI
Abstract
Presentiamo e rilasciamo la famiglia di modelli linguistici di grandi dimensioni (LLM) TigerBot, composta da modelli base e di chat, con dimensioni che vanno da 7, 13, 70 e 180 miliardi di parametri. Sviluppiamo i nostri modelli partendo da Llama-2 e BLOOM, spingendo ulteriormente i confini in termini di dati, algoritmi di addestramento, infrastruttura e strumenti applicativi. I nostri modelli mostrano un significativo miglioramento delle prestazioni rispetto ai modelli open-source all'avanguardia (SOTA), come Llama-2, con un guadagno del 6% in inglese e del 20% in cinese. La famiglia di modelli TigerBot raggiunge anche prestazioni leader nei principali benchmark accademici e industriali e nelle classifiche. Crediamo che TigerBot rappresenti solo un'istantanea del progresso rapidissimo nella comunità open-source degli LLM. Pertanto, siamo entusiasti di contribuire rilasciando pubblicamente i nostri modelli e condividendo il nostro approccio, con un'attenzione particolare alla costruzione di LLM all'avanguardia in modo democratizzato e all'utilizzo degli LLM in applicazioni reali.
English
We release and introduce the TigerBot family of large language models (LLMs),
consisting of base and chat models, sized from 7, 13, 70 and 180 billion
parameters. We develop our models embarking from Llama-2 and BLOOM, and push
the boundary further in data, training algorithm, infrastructure, and
application tools. Our models yield meaningful performance gain over SOTA
open-source models, e.g., Llama-2, specifically 6\% gain in English and 20\%
gain in Chinese. TigerBot model family also achieves leading performance in
major academic and industrial benchmarks and leaderboards. We believe that
TigerBot represents just a snapshot of lightning-fast progression in LLM
open-source community. Therefore, we are thrilled to give back by publicly
releasing our models and reporting our approach behind, with additional
emphases on building SOTA LLMs in a democratized way and making LLMs of use in
real-world applications.