言語モデルのための連鎖モデル学習Chain-of-Model Learning for Language Model
本論文では、Chain-of-Model(CoM)と呼ばれる新しい学習パラダイムを提案する。このパラダイムは、因果関係を各層の隠れ状態に連鎖形式で組み込むことで、モデルトレーニングにおけるスケーリング効率とデプロイ時の推論柔軟性を大幅に向上させる。我々は、Chain-of-Representation(CoR)の概念を導入し、各層の隠れ状態を隠れ次元レベルでの複数のサブ表現(すなわち連鎖)の組み合わせとして定式化する。各層において、出力表現の各連鎖は、入力表現におけるその前のすべての連鎖のみを参照することができる。その結果、CoMフレームワークに基づいて構築されたモデルは、前のモデル(すなわち連鎖)に基づいて連鎖を増やすことでモデルサイズを段階的に拡大し、異なる連鎖数を使用することでさまざまなサイズの複数のサブモデルを提供し、弾力的な推論を可能にする。この原理に基づいて、我々はChain-of-Language-Model(CoLM)を考案し、CoMのアイデアをTransformerアーキテクチャの各層に組み込む。CoLMに基づいて、さらにKV共有メカニズムを導入したCoLM-Airを提案する。この設計は、最初の連鎖内ですべてのキーと値を計算し、その後すべての連鎖間で共有するものであり、シームレスなLM切り替えやプリフィリングの加速などの追加の拡張性を実証する。実験結果は、我々のCoLMファミリーが標準Transformerと同等の性能を達成しつつ、トレーニング効率を向上させるための段階的スケーリングや、弾力的な推論のための複数の異なるモデルサイズの提供など、より大きな柔軟性を同時に実現することを示しており、言語モデル構築に向けた新たな道を切り開くものである。我々のコードは、将来https://github.com/microsoft/CoLMで公開される予定である。