Matrices Maravillosas: Combinándose para una Arquitectura de Modelo Base más Eficiente y Efectiva
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
December 16, 2024
Autores: Jingze Shi, Bingheng Wu
cs.AI
Resumen
Con el fin de hacer que el modelo base sea más eficiente y efectivo, nuestra idea es combinar la transformación de secuencias y la transformación de estados. Primero, demostramos la disponibilidad de la inserción de posición rotativa en el algoritmo de dualidad del espacio de estados, lo que reduce la perplejidad de la autoatención causal cuadrática híbrida y la dualidad del espacio de estados en más del 4%, para garantizar que la transformación de secuencias combinada unifique la codificación de posiciones. En segundo lugar, proponemos la atención de máscara dinámica, que mantiene una precisión del 100% en la tarea más desafiante de recuperación asociativa de múltiples consultas, mejorando en más del 150% en comparación con la autoatención causal cuadrática y la dualidad del espacio de estados, para garantizar que la transformación de secuencias combinada filtre selectivamente la información relevante. En tercer lugar, diseñamos una mezcla de expertos de dominios cruzados, que hace que la velocidad computacional de recuperación de expertos con más de 1024 expertos sea de 8 a 10 veces más rápida que la mezcla de expertos, para garantizar que la transformación de estados combinada recupere rápidamente la mezcla. Finalmente, resumimos estos algoritmos matriciales que pueden formar el modelo base: Matrices Maravillosas, que pueden competir con arquitecturas de modelos populares.
English
In order to make the foundation model more efficient and effective, our idea
is combining sequence transformation and state transformation. First, we prove
the availability of rotary position embedding in the state space duality
algorithm, which reduces the perplexity of the hybrid quadratic causal
self-attention and state space duality by more than 4%, to ensure that the
combining sequence transformation unifies position encoding. Second, we propose
dynamic mask attention, which maintains 100% accuracy in the more challenging
multi-query associative recall task, improving by more than 150% compared to
quadratic causal self-attention and state space duality, to ensure that the
combining sequence transformation selectively filters relevant information.
Third, we design cross domain mixture of experts, which makes the computational
speed of expert retrieval with more than 1024 experts 8 to 10 times faster than
the mixture of experts, to ensure that the combining state transformation
quickly retrieval mixture. Finally, we summarize these matrix algorithms that
can form the foundation model: Wonderful Matrices, which can be a competitor to
popular model architectures.Summary
AI-Generated Summary