OpenBA: Un modelo bilingüe asimétrico seq2seq de 15B de código abierto preentrenado desde cero
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch
September 19, 2023
Autores: Juntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo, Wangjie You, Dan Qiao, Wenliang Chen, Guohong Fu, Qiaoming Zhu, Guodong Zhou, Min Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con miles de millones de parámetros han demostrado un rendimiento excepcional en diversas tareas de procesamiento del lenguaje natural. Este informe presenta OpenBA, un modelo seq2seq bilingüe asimétrico de 15B de parámetros de código abierto, con el objetivo de contribuir con una variante de LLM a la comunidad de modelos de código abierto orientados al chino. Hemos mejorado OpenBA con técnicas efectivas y eficientes, además de adoptar una estrategia de entrenamiento en tres etapas para entrenar el modelo desde cero. Nuestra solución también puede lograr un rendimiento muy competitivo con solo 380B de tokens, superando a LLaMA-70B en el benchmark BELEBELE, a BLOOM-176B en el benchmark MMLU y a GLM-130B en el benchmark C-Eval (difícil). Este informe proporciona los detalles principales para preentrenar un modelo análogo, incluyendo el procesamiento de datos de preentrenamiento, la recopilación de datos Bilingual Flan, las observaciones empíricas que inspiran el diseño de la arquitectura de nuestro modelo, los objetivos de entrenamiento en diferentes etapas y otras técnicas de mejora. Hemos refactorizado nuestro código para seguir los principios de diseño de la biblioteca Huggingface Transformers, facilitando su uso por parte de los desarrolladores, y hemos publicado los puntos de control de las diferentes etapas de entrenamiento en https://huggingface.co/openBA. Más detalles sobre nuestro proyecto están disponibles en https://github.com/OpenNLG/openBA.git.
English
Large language models (LLMs) with billions of parameters have demonstrated
outstanding performance on various natural language processing tasks. This
report presents OpenBA, an open-sourced 15B bilingual asymmetric seq2seq model,
to contribute an LLM variant to the Chinese-oriented open-source model
community. We enhance OpenBA with effective and efficient techniques as well as
adopt a three-stage training strategy to train the model from scratch. Our
solution can also achieve very competitive performance with only 380B tokens,
which is better than LLaMA-70B on the BELEBELE benchmark, BLOOM-176B on the
MMLU benchmark, GLM-130B on the C-Eval (hard) benchmark. This report provides
the main details to pre-train an analogous model, including pre-training data
processing, Bilingual Flan data collection, the empirical observations that
inspire our model architecture design, training objectives of different stages,
and other enhancement techniques. We have refactored our code to follow the
design principles of the Huggingface Transformers Library, making it more
convenient for developers to use, and released checkpoints of different
training stages at https://huggingface.co/openBA. More details of our project
are available at https://github.com/OpenNLG/openBA.git.