Rapporto Tecnico di TeleChat

Abstract

In questo rapporto tecnico presentiamo TeleChat, una collezione di grandi modelli linguistici (LLM) con parametri da 3 miliardi, 7 miliardi e 12 miliardi. Include sia modelli linguistici pre-addestrati che modelli di chat raffinati allineati alle preferenze umane. TeleChat viene inizialmente pre-addestrato su un ampio corpus contenente una raccolta diversificata di testi in inglese e cinese, comprendente trilioni di token. Successivamente, il modello viene sottoposto a un processo di affinamento per allinearlo alle preferenze umane, seguendo una metodologia dettagliata che descriviamo. Valutiamo le prestazioni di TeleChat su varie attività, tra cui comprensione del linguaggio, matematica, ragionamento, generazione di codice e risposta a domande basate sulla conoscenza. I nostri risultati indicano che TeleChat raggiunge prestazioni comparabili ad altri modelli open-source di dimensioni simili su un'ampia gamma di benchmark pubblici. Per supportare future ricerche e applicazioni che utilizzano LLM, rilasciamo alla comunità pubblica i checkpoint dei modelli raffinati delle varianti 7B e 12B di TeleChat, insieme al codice e a una porzione dei nostri dati di pre-addestramento.

English

In this technical report, we present TeleChat, a collection of large language models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It includes pretrained language models as well as fine-tuned chat models that is aligned with human preferences. TeleChat is initially pretrained on an extensive corpus containing a diverse collection of texts from both English and Chinese languages, including trillions of tokens. Subsequently, the model undergoes fine-tuning to align with human preferences, following a detailed methodology that we describe. We evaluate the performance of TeleChat on various tasks, including language understanding, mathematics, reasoning, code generation, and knowledge-based question answering. Our findings indicate that TeleChat achieves comparable performance to other open-source models of similar size across a wide range of public benchmarks. To support future research and applications utilizing LLMs, we release the fine-tuned model checkpoints of TeleChat's 7B and 12B variant, along with code and a portion of our pretraining data, to the public community.

Rapporto Tecnico di TeleChat

TeleChat Technical Report

Abstract

Support