MAP-Neo : Modèle de Langage Bilingue à Grande Échelle, Hautement Performant et TransparentMAP-Neo: Highly Capable and Transparent Bilingual Large Language Model
Series
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs ces dernières années, atteignant des performances sans précédent sur diverses tâches. Cependant, en raison d'intérêts commerciaux, les modèles les plus compétitifs comme GPT, Gemini et Claude ont été verrouillés derrière des interfaces propriétaires sans divulguer les détails de leur entraînement. Récemment, de nombreuses institutions ont rendu open-source plusieurs LLMs performants comme LLaMA-3, comparables aux LLMs propriétaires existants. Cependant, seuls les poids des modèles sont fournis, la plupart des détails (par exemple, les points de contrôle intermédiaires, le corpus de pré-entraînement et le code d'entraînement, etc.) restant non divulgués. Pour améliorer la transparence des LLMs, la communauté de recherche s'est mobilisée pour rendre open-source des LLMs véritablement ouverts (par exemple, Pythia, Amber, OLMo), où davantage de détails (comme le corpus de pré-entraînement et le code d'entraînement) sont fournis. Ces modèles ont grandement fait progresser l'étude scientifique de ces grands modèles, y compris leurs forces, faiblesses, biais et risques. Cependant, nous observons que les LLMs véritablement ouverts existants sont encore inférieurs aux LLMs de pointe actuels de taille similaire sur les tâches de raisonnement, de connaissances et de codage. À cette fin, nous rendons open-source MAP-Neo, un modèle de langage bilingue hautement performant et transparent avec 7 milliards de paramètres, entraîné à partir de zéro sur 4,5 billions de tokens de haute qualité. Notre MAP-Neo est le premier LLM bilingue entièrement open-source offrant des performances comparables aux LLMs de pointe existants. De plus, nous rendons open-source tous les détails nécessaires pour reproduire notre MAP-Neo, où le corpus de pré-entraînement nettoyé, le pipeline de nettoyage des données, les points de contrôle et le cadre d'entraînement/évaluation bien optimisé sont fournis. Enfin, nous espérons que notre MAP-Neo renforcera et dynamisera la communauté de recherche ouverte et inspirera davantage d'innovations et de créativité pour faciliter les améliorations futures des LLMs.