Prachtige matrices: combineren voor een meer efficiënte en effectieve architectuur van het basismodel.
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
December 16, 2024
Auteurs: Jingze Shi, Bingheng Wu
cs.AI
Samenvatting
Om het foundation model efficiënter en effectiever te maken, is ons idee om sequentietransformatie en statetransformatie te combineren. Ten eerste bewijzen we de beschikbaarheid van rotatiepositie-embedding in het algoritme van de statelijke dualiteit, wat de perplexiteit van de hybride kwadratische causale zelfaandacht en statelijke dualiteit met meer dan 4% vermindert, om ervoor te zorgen dat de combinatie van sequentietransformatie de position encoding unificeert. Ten tweede stellen we dynamische maskeraandacht voor, die een nauwkeurigheid van 100% handhaaft in de uitdagendere multi-query associatieve herinneringstaak, met een verbetering van meer dan 150% in vergelijking met kwadratische causale zelfaandacht en statelijke dualiteit, om ervoor te zorgen dat de combinatie van sequentietransformatie selectief relevante informatie filtert. Ten derde ontwerpen we een cross-domain mengeling van experts, die de computationele snelheid van expertopvraging met meer dan 1024 experts 8 tot 10 keer sneller maakt dan de mengeling van experts, om ervoor te zorgen dat de combinatie van statetransformatie snel menging opvraagt. Tot slot vatten we deze matrixalgoritmen samen die het foundation model kunnen vormen: Prachtige Matrices, die een concurrent kunnen zijn van populaire modelarchitecturen.
English
In order to make the foundation model more efficient and effective, our idea
is combining sequence transformation and state transformation. First, we prove
the availability of rotary position embedding in the state space duality
algorithm, which reduces the perplexity of the hybrid quadratic causal
self-attention and state space duality by more than 4%, to ensure that the
combining sequence transformation unifies position encoding. Second, we propose
dynamic mask attention, which maintains 100% accuracy in the more challenging
multi-query associative recall task, improving by more than 150% compared to
quadratic causal self-attention and state space duality, to ensure that the
combining sequence transformation selectively filters relevant information.
Third, we design cross domain mixture of experts, which makes the computational
speed of expert retrieval with more than 1024 experts 8 to 10 times faster than
the mixture of experts, to ensure that the combining state transformation
quickly retrieval mixture. Finally, we summarize these matrix algorithms that
can form the foundation model: Wonderful Matrices, which can be a competitor to
popular model architectures.