OpenELM: オープンソースの学習と推論フレームワークを備えた効率的な言語モデルファミリーOpenELM: An Efficient Language Model Family with Open-source Training
and Inference Framework
大規模言語モデルの再現性と透明性は、オープン研究の推進、結果の信頼性の確保、データやモデルのバイアス、および潜在的なリスクの調査を可能にするために極めて重要です。この目的のために、我々は最先端のオープン言語モデルであるOpenELMを公開します。OpenELMは、トランスフォーマーモデルの各層内でパラメータを効率的に割り当てるための層ごとのスケーリング戦略を使用し、精度の向上を実現しています。例えば、約10億パラメータの予算で、OpenELMはOLMoと比較して2.36%の精度向上を示し、かつ事前学習に必要なトークン数が2倍少なくて済みます。 従来の慣習であるモデルの重みと推論コードのみを提供し、非公開データセットで事前学習を行う方法から一線を画し、我々のリリースには、公開されているデータセット上での言語モデルの学習と評価のための完全なフレームワークが含まれています。これには、学習ログ、複数のチェックポイント、事前学習の設定が含まれます。また、Appleデバイス上での推論とファインチューニングのために、モデルをMLXライブラリに変換するコードも公開しています。この包括的なリリースは、オープン研究コミュニティを強化し、将来のオープン研究の取り組みの道を開くことを目的としています。 我々のソースコード、事前学習済みモデルの重み、および学習レシピは、https://github.com/apple/corenet で利用可能です。さらに、\model モデルはHuggingFaceの https://huggingface.co/apple/OpenELM で見つけることができます。