素晴らしい行列: より効率的かつ効果的な基盤モデルアーキテクチャのための組み合わせ
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
December 16, 2024
著者: Jingze Shi, Bingheng Wu
cs.AI
要旨
基盤モデルをより効率的かつ効果的にするために、私たちのアイデアはシーケンス変換と状態変換を組み合わせることです。まず、状態空間双対アルゴリズムにおける回転位置埋め込みの有用性を証明し、ハイブリッド二次因果自己注意と状態空間双対のパープレキシティを4%以上削減することで、シーケンス変換が位置符号化を統一することを確認します。次に、より困難なマルチクエリ連想リコールタスクにおいて100%の精度を維持するダイナミックマスクアテンションを提案し、二次因果自己注意と状態空間双対に比べて150%以上の改善を達成し、シーケンス変換が関連情報を選択的にフィルタリングすることを確認します。三番目に、1024以上の専門家を対象とした専門家検索の計算速度を専門家の混合よりも8〜10倍高速化するクロスドメイン専門家の混合を設計し、状態変換が迅速に混合を検索することを確認します。最後に、これらの行列アルゴリズムをまとめ、基盤モデルを構築することができる「素晴らしい行列」を提供し、一般的なモデルアーキテクチャに対抗できる可能性があることを示します。
English
In order to make the foundation model more efficient and effective, our idea
is combining sequence transformation and state transformation. First, we prove
the availability of rotary position embedding in the state space duality
algorithm, which reduces the perplexity of the hybrid quadratic causal
self-attention and state space duality by more than 4%, to ensure that the
combining sequence transformation unifies position encoding. Second, we propose
dynamic mask attention, which maintains 100% accuracy in the more challenging
multi-query associative recall task, improving by more than 150% compared to
quadratic causal self-attention and state space duality, to ensure that the
combining sequence transformation selectively filters relevant information.
Third, we design cross domain mixture of experts, which makes the computational
speed of expert retrieval with more than 1024 experts 8 to 10 times faster than
the mixture of experts, to ensure that the combining state transformation
quickly retrieval mixture. Finally, we summarize these matrix algorithms that
can form the foundation model: Wonderful Matrices, which can be a competitor to
popular model architectures.Summary
AI-Generated Summary