YuLan-Mini: オープンでデータ効率の良い言語モデルYuLan-Mini: An Open Data-efficient Language Model
大規模言語モデル(LLM)の効果的な事前学習は、膨大なリソース要求と関連する技術プロセスの複雑さにより、困難を極めてきました。本論文では、2.42Bのパラメータを持つ高性能な基本モデルであるYuLan-Miniについて、同様のパラメータ規模のモデルの中で最高水準の性能を達成する詳細な技術レポートを提供します。私たちの事前学習アプローチは、トレーニングの効果を向上させることに焦点を当て、次の3つの主要な技術的貢献によって行われます:データクリーニングとデータスケジュール戦略を組み合わせた緻密なデータパイプライン、トレーニングの不安定性を緩和するための頑健な最適化手法、そして、ターゲットデータ選択と長いコンテキストトレーニングを組み込んだ効果的なアニーリング手法。驚くべきことに、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界をリードするモデルと同等の性能を達成しています。再現性を促進するために、各トレーニングフェーズのデータ構成の詳細を公開しています。プロジェクトの詳細は、以下のリンクからアクセスできます:https://github.com/RUC-GSAI/YuLan-Mini.