Ziya2: Обучение, ориентированное на данные, — это всё, что нужно большим языковым моделям.
Ziya2: Data-centric Learning is All LLMs Need
November 6, 2023
Авторы: Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song
cs.AI
Аннотация
В последние годы было предложено множество крупных языковых моделей (LLM), включая как закрытые, так и открытые, которые постоянно устанавливают новые рекорды на различных тестовых наборах. Однако развитие LLM по-прежнему сталкивается с рядом проблем, таких как высокая стоимость обучения моделей с нуля и катастрофическое забывание при непрерывном предобучении. Хотя многие из этих проблем решаются в ходе исследований LLM, важным и практическим ограничением остается то, что многие работы чрезмерно сосредоточены на увеличении размеров моделей, не уделяя достаточного внимания всестороннему анализу и оптимизации использования данных предобучения в процессе обучения, а также правильной организации и эффективному использованию таких данных при обучении LLM в условиях ограниченных ресурсов. В данной работе мы представляем Ziya2 — модель с 13 миллиардами параметров, основанную на LLaMA2, которая прошла дополнительное предобучение на 700 миллиардах токенов. Мы сосредоточились на методах предобучения и использовали оптимизацию, ориентированную на данные, чтобы улучшить процесс обучения Ziya2 на различных этапах. Эксперименты показывают, что Ziya2 значительно превосходит другие модели на множестве тестовых наборов, демонстрируя особенно впечатляющие результаты по сравнению с представительными открытыми моделями. Ziya2 (Base) доступна по ссылкам: https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base и https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
English
Various large language models (LLMs) have been proposed in recent years,
including closed- and open-source ones, continually setting new records on
multiple benchmarks. However, the development of LLMs still faces several
issues, such as high cost of training models from scratch, and continual
pre-training leading to catastrophic forgetting, etc. Although many such issues
are addressed along the line of research on LLMs, an important yet practical
limitation is that many studies overly pursue enlarging model sizes without
comprehensively analyzing and optimizing the use of pre-training data in their
learning process, as well as appropriate organization and leveraging of such
data in training LLMs under cost-effective settings. In this work, we propose
Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation
model, and further pre-trained on 700 billion tokens, where we focus on
pre-training techniques and use data-centric optimization to enhance the
learning process of Ziya2 on different stages. Experiments show that Ziya2
significantly outperforms other models in multiple benchmarks especially with
promising results compared to representative open-source ones. Ziya2 (Base) is
released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and
https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.