Ziya2: El aprendizaje centrado en datos es todo lo que los LLM necesitan
Ziya2: Data-centric Learning is All LLMs Need
November 6, 2023
Autores: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI
Resumen
En los últimos años se han propuesto diversos modelos de lenguaje de gran escala (LLMs), tanto de código cerrado como abierto, que han establecido continuamente nuevos récords en múltiples benchmarks. Sin embargo, el desarrollo de los LLMs aún enfrenta varios desafíos, como el alto costo de entrenar modelos desde cero y el pre-entrenamiento continuo que conduce al olvido catastrófico, entre otros. Aunque muchos de estos problemas se abordan en la línea de investigación sobre LLMs, una limitación importante y práctica es que muchos estudios persiguen excesivamente el aumento del tamaño de los modelos sin analizar y optimizar de manera integral el uso de datos de pre-entrenamiento en su proceso de aprendizaje, así como la organización y aprovechamiento adecuados de dichos datos en el entrenamiento de LLMs bajo configuraciones rentables. En este trabajo, proponemos Ziya2, un modelo con 13 mil millones de parámetros que adopta LLaMA2 como modelo base y se pre-entrena adicionalmente con 700 mil millones de tokens, donde nos enfocamos en técnicas de pre-entrenamiento y utilizamos optimización centrada en datos para mejorar el proceso de aprendizaje de Ziya2 en diferentes etapas. Los experimentos muestran que Ziya2 supera significativamente a otros modelos en múltiples benchmarks, especialmente con resultados prometedores en comparación con modelos de código abierto representativos. Ziya2 (Base) está disponible en https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base y https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
English
Various large language models (LLMs) have been proposed in recent years,
including closed- and open-source ones, continually setting new records on
multiple benchmarks. However, the development of LLMs still faces several
issues, such as high cost of training models from scratch, and continual
pre-training leading to catastrophic forgetting, etc. Although many such issues
are addressed along the line of research on LLMs, an important yet practical
limitation is that many studies overly pursue enlarging model sizes without
comprehensively analyzing and optimizing the use of pre-training data in their
learning process, as well as appropriate organization and leveraging of such
data in training LLMs under cost-effective settings. In this work, we propose
Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation
model, and further pre-trained on 700 billion tokens, where we focus on
pre-training techniques and use data-centric optimization to enhance the
learning process of Ziya2 on different stages. Experiments show that Ziya2
significantly outperforms other models in multiple benchmarks especially with
promising results compared to representative open-source ones. Ziya2 (Base) is
released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and
https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.