Yi: 01.AIによるオープン基盤モデルYi: Open Foundation Models by 01.AI
Yiモデルファミリーを紹介します。これは、強力な多次元能力を発揮する一連の言語モデルおよびマルチモーダルモデルです。Yiモデルファミリーは、6Bおよび34Bの事前学習済み言語モデルを基盤としており、それをチャットモデル、200K長文脈モデル、深度拡張モデル、視覚言語モデルに拡張しています。ベースモデルはMMLUなどの幅広いベンチマークで優れた性能を発揮し、ファインチューニングされたチャットモデルはAlpacaEvalやChatbot Arenaなどの主要評価プラットフォームで高い人間選好率を達成しています。スケーラブルなスーパーコンピューティングインフラと古典的なTransformerアーキテクチャを基盤として、Yiモデルの性能は主にデータエンジニアリングの取り組みによるデータ品質に起因しています。事前学習では、カスケード型のデータ重複排除と品質フィルタリングパイプラインを使用して、3.1兆トークンの英語と中国語のコーパスを構築しました。ファインチューニングでは、10K未満の小規模な指示データセットを複数回にわたって磨き上げ、各インスタンスが機械学習エンジニアによって直接検証されるようにしました。視覚言語モデルでは、チャット言語モデルと視覚Transformerエンコーダを組み合わせ、視覚表現を言語モデルの意味空間に整合させるようにモデルを訓練しました。さらに、軽量な継続事前学習を通じて文脈長を200Kに拡張し、針を探すような検索性能の高さを実証しました。事前学習済みチェックポイントの深度を継続事前学習によって拡張することで、さらなる性能向上が得られることも示しています。現在の結果を踏まえると、徹底的に最適化されたデータを使用してモデルパラメータをスケールアップし続けることで、さらに強力なフロンティアモデルが実現されると考えています。