Magnifiques matrices : Combinaison pour une architecture de modèle de base plus efficace et plus performante

papers.abstract

Afin de rendre le modèle de base plus efficace et performant, notre idée est de combiner la transformation de séquence et la transformation d'état. Tout d'abord, nous démontrons la disponibilité de l'incorporation de position rotative dans l'algorithme de dualité de l'espace d'état, ce qui réduit la perplexité de l'auto-attention causale quadratique hybride et de la dualité de l'espace d'état de plus de 4 %, afin de garantir que la combinaison de la transformation de séquence unifie le codage de position. Ensuite, nous proposons une attention de masque dynamique, qui maintient une précision de 100 % dans la tâche plus difficile de rappel associatif multi-requêtes, améliorant de plus de 150 % par rapport à l'auto-attention causale quadratique et à la dualité de l'espace d'état, pour garantir que la transformation de séquence combinée filtre sélectivement les informations pertinentes. Troisièmement, nous concevons un mélange d'experts inter-domaines, qui accélère la vitesse de calcul de la récupération d'experts avec plus de 1024 experts de 8 à 10 fois par rapport au mélange d'experts, pour garantir que la transformation d'état combinée récupère rapidement le mélange. Enfin, nous résumons ces algorithmes matriciels qui peuvent former le modèle de base : les Matrices Merveilleuses, qui peuvent être un concurrent aux architectures de modèle populaires.

English

In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.

Magnifiques matrices : Combinaison pour une architecture de modèle de base plus efficace et plus performante

Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

papers.abstract

Support