MAP-Neo : Modèle de Langage Bilingue à Grande Échelle, Hautement Performant et Transparent
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series
May 29, 2024
Auteurs: Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs ces dernières années, atteignant des performances sans précédent sur diverses tâches. Cependant, en raison d'intérêts commerciaux, les modèles les plus compétitifs comme GPT, Gemini et Claude ont été verrouillés derrière des interfaces propriétaires sans divulguer les détails de leur entraînement. Récemment, de nombreuses institutions ont rendu open-source plusieurs LLMs performants comme LLaMA-3, comparables aux LLMs propriétaires existants. Cependant, seuls les poids des modèles sont fournis, la plupart des détails (par exemple, les points de contrôle intermédiaires, le corpus de pré-entraînement et le code d'entraînement, etc.) restant non divulgués. Pour améliorer la transparence des LLMs, la communauté de recherche s'est mobilisée pour rendre open-source des LLMs véritablement ouverts (par exemple, Pythia, Amber, OLMo), où davantage de détails (comme le corpus de pré-entraînement et le code d'entraînement) sont fournis. Ces modèles ont grandement fait progresser l'étude scientifique de ces grands modèles, y compris leurs forces, faiblesses, biais et risques. Cependant, nous observons que les LLMs véritablement ouverts existants sont encore inférieurs aux LLMs de pointe actuels de taille similaire sur les tâches de raisonnement, de connaissances et de codage. À cette fin, nous rendons open-source MAP-Neo, un modèle de langage bilingue hautement performant et transparent avec 7 milliards de paramètres, entraîné à partir de zéro sur 4,5 billions de tokens de haute qualité. Notre MAP-Neo est le premier LLM bilingue entièrement open-source offrant des performances comparables aux LLMs de pointe existants. De plus, nous rendons open-source tous les détails nécessaires pour reproduire notre MAP-Neo, où le corpus de pré-entraînement nettoyé, le pipeline de nettoyage des données, les points de contrôle et le cadre d'entraînement/évaluation bien optimisé sont fournis. Enfin, nous espérons que notre MAP-Neo renforcera et dynamisera la communauté de recherche ouverte et inspirera davantage d'innovations et de créativité pour faciliter les améliorations futures des LLMs.
English
Large Language Models (LLMs) have made great strides in recent years to
achieve unprecedented performance across different tasks. However, due to
commercial interest, the most competitive models like GPT, Gemini, and Claude
have been gated behind proprietary interfaces without disclosing the training
details. Recently, many institutions have open-sourced several strong LLMs like
LLaMA-3, comparable to existing closed-source LLMs. However, only the model's
weights are provided with most details (e.g., intermediate checkpoints,
pre-training corpus, and training code, etc.) being undisclosed. To improve the
transparency of LLMs, the research community has formed to open-source truly
open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training
corpus and training code) are being provided. These models have greatly
advanced the scientific study of these large models including their strengths,
weaknesses, biases and risks. However, we observe that the existing truly open
LLMs on reasoning, knowledge, and coding tasks are still inferior to existing
state-of-the-art LLMs with similar model sizes. To this end, we open-source
MAP-Neo, a highly capable and transparent bilingual language model with 7B
parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the
first fully open-sourced bilingual LLM with comparable performance compared to
existing state-of-the-art LLMs. Moreover, we open-source all details to
reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning
pipeline, checkpoints, and well-optimized training/evaluation framework are
provided. Finally, we hope our MAP-Neo will enhance and strengthen the open
research community and inspire more innovations and creativities to facilitate
the further improvements of LLMs.Summary
AI-Generated Summary