MAP-Neo: 高度な能力と透明性を備えたバイリンガル大規模言語モデルシリーズMAP-Neo: Highly Capable and Transparent Bilingual Large Language Model
Series
大規模言語モデル(LLMs)は近年、さまざまなタスクにおいて前例のない性能を達成するために大きな進歩を遂げてきました。しかし、商業的な関心から、GPT、Gemini、Claudeなどの最も競争力のあるモデルは、トレーニングの詳細を開示することなく、独自のインターフェースの背後に閉ざされています。最近では、多くの機関がLLaMA-3などの強力なLLMsをオープンソース化し、既存のクローズドソースLLMsに匹敵する性能を実現しています。しかし、提供されるのはモデルの重みだけで、中間チェックポイント、事前学習コーパス、トレーニングコードなどの詳細のほとんどは非公開のままです。LLMsの透明性を向上させるために、研究コミュニティは真にオープンなLLMs(例:Pythia、Amber、OLMo)をオープンソース化することを目指しており、事前学習コーパスやトレーニングコードなどの詳細が提供されています。これらのモデルは、これらの大規模モデルの強み、弱み、バイアス、リスクを含む科学的な研究を大きく進展させました。しかし、既存の真にオープンなLLMsは、推論、知識、コーディングタスクにおいて、同規模の最先端LLMsに比べてまだ劣っていることが観察されます。この目的のために、私たちはMAP-Neoをオープンソース化しました。これは、4.5Tの高品質トークンからスクラッチでトレーニングされた、7Bパラメータの高度な能力と透明性を備えたバイリンガル言語モデルです。私たちのMAP-Neoは、既存の最先端LLMsと同等の性能を発揮する、初の完全オープンソースのバイリンガルLLMです。さらに、MAP-Neoを再現するためのすべての詳細をオープンソース化しており、クリーンな事前学習コーパス、データクリーニングパイプライン、チェックポイント、最適化されたトレーニング/評価フレームワークが提供されています。最後に、私たちのMAP-Neoがオープン研究コミュニティを強化し、LLMsのさらなる改善を促進するためのより多くのイノベーションと創造性を刺激することを願っています。