Ziya2: Datenzentriertes Lernen ist alles, was LLMs brauchen
Ziya2: Data-centric Learning is All LLMs Need
November 6, 2023
Autoren: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI
Zusammenfassung
In den letzten Jahren wurden verschiedene große Sprachmodelle (LLMs) vorgeschlagen, darunter sowohl proprietäre als auch Open-Source-Modelle, die kontinuierlich neue Rekorde auf mehreren Benchmarks aufstellen. Die Entwicklung von LLMs steht jedoch weiterhin vor mehreren Herausforderungen, wie den hohen Kosten für das Training von Modellen von Grund auf und dem kontinuierlichen Pre-Training, das zu katastrophalem Vergessen führen kann. Obwohl viele dieser Probleme im Rahmen der Forschung zu LLMs angegangen werden, bleibt eine wichtige und praktische Einschränkung bestehen: Viele Studien streben übermäßig die Vergrößerung der Modellgrößen an, ohne die Nutzung von Pre-Training-Daten in ihrem Lernprozess umfassend zu analysieren und zu optimieren, sowie die angemessene Organisation und Nutzung solcher Daten beim Training von LLMs unter kosteneffizienten Bedingungen. In dieser Arbeit stellen wir Ziya2 vor, ein Modell mit 13 Milliarden Parametern, das LLaMA2 als Basismodell verwendet und weiterhin auf 700 Milliarden Tokens vorab trainiert wurde. Dabei konzentrieren wir uns auf Pre-Training-Techniken und nutzen datenzentrierte Optimierung, um den Lernprozess von Ziya2 in verschiedenen Phasen zu verbessern. Experimente zeigen, dass Ziya2 auf mehreren Benchmarks deutlich besser abschneidet als andere Modelle, insbesondere im Vergleich zu repräsentativen Open-Source-Modellen. Ziya2 (Base) ist unter https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base und https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary verfügbar.
English
Various large language models (LLMs) have been proposed in recent years,
including closed- and open-source ones, continually setting new records on
multiple benchmarks. However, the development of LLMs still faces several
issues, such as high cost of training models from scratch, and continual
pre-training leading to catastrophic forgetting, etc. Although many such issues
are addressed along the line of research on LLMs, an important yet practical
limitation is that many studies overly pursue enlarging model sizes without
comprehensively analyzing and optimizing the use of pre-training data in their
learning process, as well as appropriate organization and leveraging of such
data in training LLMs under cost-effective settings. In this work, we propose
Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation
model, and further pre-trained on 700 billion tokens, where we focus on
pre-training techniques and use data-centric optimization to enhance the
learning process of Ziya2 on different stages. Experiments show that Ziya2
significantly outperforms other models in multiple benchmarks especially with
promising results compared to representative open-source ones. Ziya2 (Base) is
released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and
https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.