Ziya2: Data-gestuurd leren is alles wat LLM's nodig hebben
Ziya2: Data-centric Learning is All LLMs Need
November 6, 2023
Auteurs: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI
Samenvatting
De afgelopen jaren zijn verschillende grote taalmodellen (LLMs) voorgesteld, zowel closed- als open-source, die voortdurend nieuwe records vestigen op meerdere benchmarks. De ontwikkeling van LLMs kampt echter nog steeds met verschillende problemen, zoals de hoge kosten van het trainen van modellen vanaf nul, en het voortdurende vooraf trainen dat kan leiden tot catastrofaal vergeten, enz. Hoewel veel van deze problemen worden aangepakt in het lopende onderzoek naar LLMs, is een belangrijk maar praktisch beperkend aspect dat veel studies te veel gericht zijn op het vergroten van de modelgroottes zonder het gebruik van vooraf getrainde data in hun leerproces grondig te analyseren en te optimaliseren, evenals de juiste organisatie en benutting van dergelijke data bij het trainen van LLMs onder kosteneffectieve omstandigheden. In dit werk stellen we Ziya2 voor, een model met 13 miljard parameters dat LLaMA2 als basis model gebruikt en verder is vooraf getraind op 700 miljard tokens, waarbij we ons richten op vooraf trainen technieken en data-gerichte optimalisatie gebruiken om het leerproces van Ziya2 in verschillende fasen te verbeteren. Experimenten tonen aan dat Ziya2 aanzienlijk beter presteert dan andere modellen op meerdere benchmarks, vooral met veelbelovende resultaten in vergelijking met representatieve open-source modellen. Ziya2 (Base) is vrijgegeven op https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base en https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
English
Various large language models (LLMs) have been proposed in recent years,
including closed- and open-source ones, continually setting new records on
multiple benchmarks. However, the development of LLMs still faces several
issues, such as high cost of training models from scratch, and continual
pre-training leading to catastrophic forgetting, etc. Although many such issues
are addressed along the line of research on LLMs, an important yet practical
limitation is that many studies overly pursue enlarging model sizes without
comprehensively analyzing and optimizing the use of pre-training data in their
learning process, as well as appropriate organization and leveraging of such
data in training LLMs under cost-effective settings. In this work, we propose
Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation
model, and further pre-trained on 700 billion tokens, where we focus on
pre-training techniques and use data-centric optimization to enhance the
learning process of Ziya2 on different stages. Experiments show that Ziya2
significantly outperforms other models in multiple benchmarks especially with
promising results compared to representative open-source ones. Ziya2 (Base) is
released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and
https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.