Prachtige matrices: combineren voor een meer efficiënte en effectieve architectuur van het basismodel.

Samenvatting

Om het foundation model efficiënter en effectiever te maken, is ons idee om sequentietransformatie en statetransformatie te combineren. Ten eerste bewijzen we de beschikbaarheid van rotatiepositie-embedding in het algoritme van de statelijke dualiteit, wat de perplexiteit van de hybride kwadratische causale zelfaandacht en statelijke dualiteit met meer dan 4% vermindert, om ervoor te zorgen dat de combinatie van sequentietransformatie de position encoding unificeert. Ten tweede stellen we dynamische maskeraandacht voor, die een nauwkeurigheid van 100% handhaaft in de uitdagendere multi-query associatieve herinneringstaak, met een verbetering van meer dan 150% in vergelijking met kwadratische causale zelfaandacht en statelijke dualiteit, om ervoor te zorgen dat de combinatie van sequentietransformatie selectief relevante informatie filtert. Ten derde ontwerpen we een cross-domain mengeling van experts, die de computationele snelheid van expertopvraging met meer dan 1024 experts 8 tot 10 keer sneller maakt dan de mengeling van experts, om ervoor te zorgen dat de combinatie van statetransformatie snel menging opvraagt. Tot slot vatten we deze matrixalgoritmen samen die het foundation model kunnen vormen: Prachtige Matrices, die een concurrent kunnen zijn van populaire modelarchitecturen.

English

In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.

Prachtige matrices: combineren voor een meer efficiënte en effectieve architectuur van het basismodel.

Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Samenvatting

Support