Magnifiques matrices : Combinaison pour une architecture de modèle de base plus efficace et plus performante
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
December 16, 2024
Auteurs: Jingze Shi, Bingheng Wu
cs.AI
Résumé
Afin de rendre le modèle de base plus efficace et performant, notre idée est de combiner la transformation de séquence et la transformation d'état. Tout d'abord, nous démontrons la disponibilité de l'incorporation de position rotative dans l'algorithme de dualité de l'espace d'état, ce qui réduit la perplexité de l'auto-attention causale quadratique hybride et de la dualité de l'espace d'état de plus de 4 %, afin de garantir que la combinaison de la transformation de séquence unifie le codage de position. Ensuite, nous proposons une attention de masque dynamique, qui maintient une précision de 100 % dans la tâche plus difficile de rappel associatif multi-requêtes, améliorant de plus de 150 % par rapport à l'auto-attention causale quadratique et à la dualité de l'espace d'état, pour garantir que la transformation de séquence combinée filtre sélectivement les informations pertinentes. Troisièmement, nous concevons un mélange d'experts inter-domaines, qui accélère la vitesse de calcul de la récupération d'experts avec plus de 1024 experts de 8 à 10 fois par rapport au mélange d'experts, pour garantir que la transformation d'état combinée récupère rapidement le mélange. Enfin, nous résumons ces algorithmes matriciels qui peuvent former le modèle de base : les Matrices Merveilleuses, qui peuvent être un concurrent aux architectures de modèle populaires.
English
In order to make the foundation model more efficient and effective, our idea
is combining sequence transformation and state transformation. First, we prove
the availability of rotary position embedding in the state space duality
algorithm, which reduces the perplexity of the hybrid quadratic causal
self-attention and state space duality by more than 4%, to ensure that the
combining sequence transformation unifies position encoding. Second, we propose
dynamic mask attention, which maintains 100% accuracy in the more challenging
multi-query associative recall task, improving by more than 150% compared to
quadratic causal self-attention and state space duality, to ensure that the
combining sequence transformation selectively filters relevant information.
Third, we design cross domain mixture of experts, which makes the computational
speed of expert retrieval with more than 1024 experts 8 to 10 times faster than
the mixture of experts, to ensure that the combining state transformation
quickly retrieval mixture. Finally, we summarize these matrix algorithms that
can form the foundation model: Wonderful Matrices, which can be a competitor to
popular model architectures.Summary
AI-Generated Summary