Технический отчет по полностью открытому исходному коду Moxin-7B
Fully Open Source Moxin-7B Technical Report
December 8, 2024
Авторы: Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang
cs.AI
Аннотация
В последнее время большие языковые модели (LLM) претерпели значительное преобразование, отмеченное стремительным ростом как их популярности, так и возможностей. Во главе этой эволюции стоят собственные LLM, такие как GPT-4 и GPT-o1, которые привлекли широкое внимание в сообществе исследователей в области искусственного интеллекта благодаря своему выдающемуся качеству и универсальности. Одновременно с этим открытые LLM, такие как LLaMA и Mistral, внесли значительный вклад в постоянно растущую популярность LLM благодаря простоте настройки и развертывания моделей в различных приложениях. Хотя открытые LLM представляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения относительно прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют фундаментальным требованиям прозрачности, утаивая важные компоненты, такие как код обучения и данные, а некоторые используют ограничительные лицензии, при этом утверждая, что они "открытые", что может затруднить дальнейшие инновации в области LLM. Для устранения этой проблемы мы представляем Moxin 7B, полностью открытую LLM, разработанную в соответствии с Модельным Фреймворком Открытости (MOF), ранжированной системой классификации, оценивающей ИИ-модели на основе полноты и открытости модели, придерживаясь принципов открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря полному выпуску кода и конфигураций предварительного обучения, наборов данных для обучения и донастройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель достигает превосходных результатов при оценке без обучения по сравнению с популярными моделями 7B и конкурентоспособна при оценке с небольшим обучением.
English
Recently, Large Language Models (LLMs) have undergone a significant
transformation, marked by a rapid rise in both their popularity and
capabilities. Leading this evolution are proprietary LLMs like GPT-4 and
GPT-o1, which have captured widespread attention in the AI community due to
their remarkable performance and versatility. Simultaneously, open-source LLMs,
such as LLaMA and Mistral, have made great contributions to the ever-increasing
popularity of LLMs due to the ease to customize and deploy the models across
diverse applications. Although open-source LLMs present unprecedented
opportunities for innovation and research, the commercialization of LLMs has
raised concerns about transparency, reproducibility, and safety. Many
open-source LLMs fail to meet fundamental transparency requirements by
withholding essential components like training code and data, and some use
restrictive licenses whilst claiming to be "open-source," which may hinder
further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a
fully open-source LLM developed in accordance with the Model Openness Framework
(MOF), a ranked classification system that evaluates AI models based on model
completeness and openness, adhering to principles of open science, open source,
open data, and open access. Our model achieves the highest MOF classification
level of "open science" through the comprehensive release of pre-training code
and configurations, training and fine-tuning datasets, and intermediate and
final checkpoints. Experiments show that our model achieves superior
performance in zero-shot evaluation compared with popular 7B models and
performs competitively in few-shot evaluation.Summary
AI-Generated Summary