Ziya2: L'apprendimento centrato sui dati è tutto ciò di cui hanno bisogno gli LLM
Ziya2: Data-centric Learning is All LLMs Need
November 6, 2023
Autori: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI
Abstract
Negli ultimi anni sono stati proposti vari modelli linguistici di grandi dimensioni (LLM), sia open-source che proprietari, che continuano a stabilire nuovi record su molteplici benchmark. Tuttavia, lo sviluppo degli LLM deve ancora affrontare diverse problematiche, come l’elevato costo dell’addestramento da zero e il pre-training continuo che porta a fenomeni di dimenticanza catastrofica. Sebbene molte di queste questioni siano state affrontate nel corso della ricerca sugli LLM, una limitazione importante e pratica è che molti studi si concentrano eccessivamente sull’aumento delle dimensioni del modello senza analizzare e ottimizzare in modo completo l’uso dei dati di pre-training nel loro processo di apprendimento, né sull’organizzazione e lo sfruttamento appropriato di tali dati nell’addestramento degli LLM in contesti economicamente sostenibili. In questo lavoro, proponiamo Ziya2, un modello con 13 miliardi di parametri basato su LLaMA2 come modello di partenza, ulteriormente pre-addestrato su 700 miliardi di token, dove ci concentriamo sulle tecniche di pre-training e utilizziamo un’ottimizzazione centrata sui dati per migliorare il processo di apprendimento di Ziya2 in diverse fasi. Gli esperimenti dimostrano che Ziya2 supera significativamente altri modelli in molteplici benchmark, ottenendo risultati promettenti rispetto ai modelli open-source rappresentativi. Ziya2 (Base) è disponibile all’indirizzo https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base e https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
English
Various large language models (LLMs) have been proposed in recent years,
including closed- and open-source ones, continually setting new records on
multiple benchmarks. However, the development of LLMs still faces several
issues, such as high cost of training models from scratch, and continual
pre-training leading to catastrophic forgetting, etc. Although many such issues
are addressed along the line of research on LLMs, an important yet practical
limitation is that many studies overly pursue enlarging model sizes without
comprehensively analyzing and optimizing the use of pre-training data in their
learning process, as well as appropriate organization and leveraging of such
data in training LLMs under cost-effective settings. In this work, we propose
Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation
model, and further pre-trained on 700 billion tokens, where we focus on
pre-training techniques and use data-centric optimization to enhance the
learning process of Ziya2 on different stages. Experiments show that Ziya2
significantly outperforms other models in multiple benchmarks especially with
promising results compared to representative open-source ones. Ziya2 (Base) is
released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and
https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.