スカベンジャー・ハイエナ:トランスフォーマーを長距離畳み込みモデルに蒸留する
Scavenging Hyena: Distilling Transformers into Long Convolution Models
January 31, 2024
著者: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI
要旨
大規模言語モデル(LLM)の急速な進化は、GPT-4のようなアーキテクチャに代表され、自然言語処理の分野を大きく変貌させてきました。本論文では、LLMの事前学習に関連する効率性の問題に対処するための画期的なアプローチを紹介し、クロスアーキテクチャ転送のための知識蒸留の利用を提案します。効率的なHyenaメカニズムからの洞察を活用し、我々の手法はトランスフォーマーモデルのアテンションヘッドをHyenaに置き換えることで、従来の事前学習に比べてコスト効率の良い代替手段を提供し、二次的なアテンションメカニズムに内在する長い文脈情報の処理という課題に取り組みます。従来の圧縮に焦点を当てた手法とは異なり、我々の技術は推論速度を向上させるだけでなく、精度と効率の両面で事前学習を凌駕します。進化し続けるLLMの時代において、我々の研究は計算能力と環境影響のバランスを取りながら、持続可能なAIソリューションの追求に貢献します。
English
The rapid evolution of Large Language Models (LLMs), epitomized by
architectures like GPT-4, has reshaped the landscape of natural language
processing. This paper introduces a pioneering approach to address the
efficiency concerns associated with LLM pre-training, proposing the use of
knowledge distillation for cross-architecture transfer. Leveraging insights
from the efficient Hyena mechanism, our method replaces attention heads in
transformer models by Hyena, offering a cost-effective alternative to
traditional pre-training while confronting the challenge of processing long
contextual information, inherent in quadratic attention mechanisms. Unlike
conventional compression-focused methods, our technique not only enhances
inference speed but also surpasses pre-training in terms of both accuracy and
efficiency. In the era of evolving LLMs, our work contributes to the pursuit of
sustainable AI solutions, striking a balance between computational power and
environmental impact.