ChatPaper.aiChatPaper

Ziya2: Aprendizado Centrado em Dados é Tudo que LLMs Precisam

Ziya2: Data-centric Learning is All LLMs Need

November 6, 2023
Autores: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI

Resumo

Vários modelos de linguagem de grande escala (LLMs) têm sido propostos nos últimos anos, incluindo modelos de código fechado e aberto, estabelecendo continuamente novos recordes em múltiplos benchmarks. No entanto, o desenvolvimento de LLMs ainda enfrenta diversos problemas, como o alto custo de treinar modelos do zero e o pré-treinamento contínuo que leva ao esquecimento catastrófico, entre outros. Embora muitos desses problemas sejam abordados ao longo da pesquisa em LLMs, uma limitação importante e prática é que muitos estudos buscam excessivamente aumentar o tamanho dos modelos sem analisar e otimizar de forma abrangente o uso de dados de pré-treinamento em seu processo de aprendizagem, bem como a organização e o aproveitamento adequados desses dados no treinamento de LLMs em configurações de custo-benefício. Neste trabalho, propomos o Ziya2, um modelo com 13 bilhões de parâmetros que adota o LLaMA2 como modelo base e é pré-treinado adicionalmente em 700 bilhões de tokens, onde nos concentramos em técnicas de pré-treinamento e usamos otimização centrada em dados para aprimorar o processo de aprendizagem do Ziya2 em diferentes estágios. Experimentos mostram que o Ziya2 supera significativamente outros modelos em múltiplos benchmarks, especialmente com resultados promissores em comparação com modelos de código aberto representativos. O Ziya2 (Base) está disponível em https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base e https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
English
Various large language models (LLMs) have been proposed in recent years, including closed- and open-source ones, continually setting new records on multiple benchmarks. However, the development of LLMs still faces several issues, such as high cost of training models from scratch, and continual pre-training leading to catastrophic forgetting, etc. Although many such issues are addressed along the line of research on LLMs, an important yet practical limitation is that many studies overly pursue enlarging model sizes without comprehensively analyzing and optimizing the use of pre-training data in their learning process, as well as appropriate organization and leveraging of such data in training LLMs under cost-effective settings. In this work, we propose Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation model, and further pre-trained on 700 billion tokens, where we focus on pre-training techniques and use data-centric optimization to enhance the learning process of Ziya2 on different stages. Experiments show that Ziya2 significantly outperforms other models in multiple benchmarks especially with promising results compared to representative open-source ones. Ziya2 (Base) is released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
PDF201February 8, 2026