MAP-Neo: 高度な能力と透明性を備えたバイリンガル大規模言語モデルシリーズ
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series
May 29, 2024
著者: Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen
cs.AI
要旨
大規模言語モデル(LLMs)は近年、さまざまなタスクにおいて前例のない性能を達成するために大きな進歩を遂げてきました。しかし、商業的な関心から、GPT、Gemini、Claudeなどの最も競争力のあるモデルは、トレーニングの詳細を開示することなく、独自のインターフェースの背後に閉ざされています。最近では、多くの機関がLLaMA-3などの強力なLLMsをオープンソース化し、既存のクローズドソースLLMsに匹敵する性能を実現しています。しかし、提供されるのはモデルの重みだけで、中間チェックポイント、事前学習コーパス、トレーニングコードなどの詳細のほとんどは非公開のままです。LLMsの透明性を向上させるために、研究コミュニティは真にオープンなLLMs(例:Pythia、Amber、OLMo)をオープンソース化することを目指しており、事前学習コーパスやトレーニングコードなどの詳細が提供されています。これらのモデルは、これらの大規模モデルの強み、弱み、バイアス、リスクを含む科学的な研究を大きく進展させました。しかし、既存の真にオープンなLLMsは、推論、知識、コーディングタスクにおいて、同規模の最先端LLMsに比べてまだ劣っていることが観察されます。この目的のために、私たちはMAP-Neoをオープンソース化しました。これは、4.5Tの高品質トークンからスクラッチでトレーニングされた、7Bパラメータの高度な能力と透明性を備えたバイリンガル言語モデルです。私たちのMAP-Neoは、既存の最先端LLMsと同等の性能を発揮する、初の完全オープンソースのバイリンガルLLMです。さらに、MAP-Neoを再現するためのすべての詳細をオープンソース化しており、クリーンな事前学習コーパス、データクリーニングパイプライン、チェックポイント、最適化されたトレーニング/評価フレームワークが提供されています。最後に、私たちのMAP-Neoがオープン研究コミュニティを強化し、LLMsのさらなる改善を促進するためのより多くのイノベーションと創造性を刺激することを願っています。
English
Large Language Models (LLMs) have made great strides in recent years to
achieve unprecedented performance across different tasks. However, due to
commercial interest, the most competitive models like GPT, Gemini, and Claude
have been gated behind proprietary interfaces without disclosing the training
details. Recently, many institutions have open-sourced several strong LLMs like
LLaMA-3, comparable to existing closed-source LLMs. However, only the model's
weights are provided with most details (e.g., intermediate checkpoints,
pre-training corpus, and training code, etc.) being undisclosed. To improve the
transparency of LLMs, the research community has formed to open-source truly
open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training
corpus and training code) are being provided. These models have greatly
advanced the scientific study of these large models including their strengths,
weaknesses, biases and risks. However, we observe that the existing truly open
LLMs on reasoning, knowledge, and coding tasks are still inferior to existing
state-of-the-art LLMs with similar model sizes. To this end, we open-source
MAP-Neo, a highly capable and transparent bilingual language model with 7B
parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the
first fully open-sourced bilingual LLM with comparable performance compared to
existing state-of-the-art LLMs. Moreover, we open-source all details to
reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning
pipeline, checkpoints, and well-optimized training/evaluation framework are
provided. Finally, we hope our MAP-Neo will enhance and strengthen the open
research community and inspire more innovations and creativities to facilitate
the further improvements of LLMs.Summary
AI-Generated Summary