Ziya2 : L'apprentissage centré sur les données est tout ce dont les LLM ont besoin
Ziya2: Data-centric Learning is All LLMs Need
November 6, 2023
Auteurs: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI
Résumé
Divers modèles de langage de grande taille (LLMs) ont été proposés ces dernières années, incluant des modèles propriétaires et open-source, établissant continuellement de nouveaux records sur plusieurs benchmarks. Cependant, le développement des LLMs rencontre encore plusieurs problèmes, tels que le coût élevé de l'entraînement de modèles à partir de zéro, et le pré-entraînement continu menant à l'oubli catastrophique, etc. Bien que de nombreux problèmes soient abordés dans le cadre de la recherche sur les LLMs, une limitation importante et pratique est que de nombreuses études cherchent excessivement à augmenter la taille des modèles sans analyser et optimiser de manière exhaustive l'utilisation des données de pré-entraînement dans leur processus d'apprentissage, ainsi que l'organisation et l'exploitation appropriées de ces données dans l'entraînement des LLMs dans des conditions économiques. Dans ce travail, nous proposons Ziya2, un modèle de 13 milliards de paramètres adoptant LLaMA2 comme modèle de base, et pré-entraîné sur 700 milliards de tokens, où nous nous concentrons sur les techniques de pré-entraînement et utilisons une optimisation centrée sur les données pour améliorer le processus d'apprentissage de Ziya2 à différentes étapes. Les expériences montrent que Ziya2 surpasse significativement d'autres modèles sur plusieurs benchmarks, en particulier avec des résultats prometteurs par rapport aux modèles open-source représentatifs. Ziya2 (Base) est disponible à l'adresse https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base et https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
English
Various large language models (LLMs) have been proposed in recent years,
including closed- and open-source ones, continually setting new records on
multiple benchmarks. However, the development of LLMs still faces several
issues, such as high cost of training models from scratch, and continual
pre-training leading to catastrophic forgetting, etc. Although many such issues
are addressed along the line of research on LLMs, an important yet practical
limitation is that many studies overly pursue enlarging model sizes without
comprehensively analyzing and optimizing the use of pre-training data in their
learning process, as well as appropriate organization and leveraging of such
data in training LLMs under cost-effective settings. In this work, we propose
Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation
model, and further pre-trained on 700 billion tokens, where we focus on
pre-training techniques and use data-centric optimization to enhance the
learning process of Ziya2 on different stages. Experiments show that Ziya2
significantly outperforms other models in multiple benchmarks especially with
promising results compared to representative open-source ones. Ziya2 (Base) is
released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and
https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.