LayerSkip: 早期終了推論と自己投機的デコードを可能にするLayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
本論文では、大規模言語モデル(LLM)の推論を高速化するためのエンドツーエンドソリューションであるLayerSkipを提案します。まず、トレーニング中にレイヤードロップアウトを適用し、初期層では低いドロップアウト率、後続層では高いドロップアウト率を設定します。さらに、すべてのトランスフォーマーレイヤーが同じ出口を共有する早期出口損失を導入します。次に、推論時には、このトレーニング手法が、モデルに補助的なレイヤーやモジュールを追加することなく、初期層での早期出口の精度を向上させることを示します。第三に、初期層で出口し、残りのレイヤーで検証と修正を行う新しい自己推測的デコードソリューションを提案します。提案する自己推測的デコードアプローチは、他の推測的デコードアプローチよりもメモリフットプリントが小さく、ドラフト段階と検証段階の計算とアクティベーションを共有する利点があります。Llamaモデルのさまざまなサイズで、スクラッチからの事前学習、継続的な事前学習、特定のデータドメインでのファインチューニング、特定のタスクでのファインチューニングなど、異なるタイプのトレーニングを実施しました。推論ソリューションを実装し、CNN/DMドキュメントの要約では最大2.16倍、コーディングでは1.82倍、TOPv2セマンティックパースタスクでは2.0倍の高速化を実現しました。コードとチェックポイントはhttps://github.com/facebookresearch/LayerSkipで公開しています。