Rapport technique entièrement open source sur le Moxin-7B
Fully Open Source Moxin-7B Technical Report
December 8, 2024
Auteurs: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang
cs.AI
Résumé
Récemment, les Grands Modèles de Langage (GML) ont subi une transformation significative, marquée par une montée en flèche rapide de leur popularité et de leurs capacités. À la tête de cette évolution se trouvent des GML propriétaires comme GPT-4 et GPT-o1, qui ont suscité une attention généralisée dans la communauté de l'IA en raison de leurs performances et de leur polyvalence remarquables. Parallèlement, des GML open-source, tels que LLaMA et Mistral, ont apporté une contribution majeure à la popularité croissante des GML en raison de la facilité de personnalisation et de déploiement des modèles dans diverses applications. Bien que les GML open-source offrent des opportunités sans précédent pour l'innovation et la recherche, la commercialisation des GML a soulevé des préoccupations concernant la transparence, la reproductibilité et la sécurité. De nombreux GML open-source ne respectent pas les exigences fondamentales en matière de transparence en retenant des composants essentiels tels que le code d'entraînement et les données, et certains utilisent des licences restrictives tout en prétendant être "open-source", ce qui peut entraver les innovations futures sur les GML. Pour atténuer ce problème, nous présentons Moxin 7B, un GML entièrement open-source développé conformément au Cadre d'ouverture des modèles (MOF), un système de classification hiérarchisé qui évalue les modèles d'IA en fonction de leur complétude et de leur ouverture, en respectant les principes de la science ouverte, du code source ouvert, des données ouvertes et de l'accès ouvert. Notre modèle atteint le plus haut niveau de classification MOF "science ouverte" grâce à la publication complète du code et des configurations de pré-entraînement, des ensembles de données d'entraînement et de fine-tuning, ainsi que des points de contrôle intermédiaires et finaux. Les expériences montrent que notre modèle obtient des performances supérieures en évaluation sans apprentissage préalable par rapport aux modèles 7B populaires et se comporte de manière compétitive en évaluation à quelques exemples.
English
Recently, Large Language Models (LLMs) have undergone a significant
transformation, marked by a rapid rise in both their popularity and
capabilities. Leading this evolution are proprietary LLMs like GPT-4 and
GPT-o1, which have captured widespread attention in the AI community due to
their remarkable performance and versatility. Simultaneously, open-source LLMs,
such as LLaMA and Mistral, have made great contributions to the ever-increasing
popularity of LLMs due to the ease to customize and deploy the models across
diverse applications. Although open-source LLMs present unprecedented
opportunities for innovation and research, the commercialization of LLMs has
raised concerns about transparency, reproducibility, and safety. Many
open-source LLMs fail to meet fundamental transparency requirements by
withholding essential components like training code and data, and some use
restrictive licenses whilst claiming to be "open-source," which may hinder
further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a
fully open-source LLM developed in accordance with the Model Openness Framework
(MOF), a ranked classification system that evaluates AI models based on model
completeness and openness, adhering to principles of open science, open source,
open data, and open access. Our model achieves the highest MOF classification
level of "open science" through the comprehensive release of pre-training code
and configurations, training and fine-tuning datasets, and intermediate and
final checkpoints. Experiments show that our model achieves superior
performance in zero-shot evaluation compared with popular 7B models and
performs competitively in few-shot evaluation.Summary
AI-Generated Summary