ChatPaper.aiChatPaper

Matrizes Maravilhosas: Combinando para uma Arquitetura de Modelo Base mais Eficiente e Eficaz

Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

December 16, 2024
Autores: Jingze Shi, Bingheng Wu
cs.AI

Resumo

Para tornar o modelo base mais eficiente e eficaz, nossa ideia é combinar a transformação de sequência e a transformação de estado. Primeiramente, demonstramos a viabilidade da inserção de posição rotativa no algoritmo de dualidade de espaço de estado, o que reduz a perplexidade da autoatenção causal híbrida quadrática e da dualidade de espaço de estado em mais de 4%, garantindo que a transformação de sequência combinada unifique a codificação de posição. Em segundo lugar, propomos a atenção de máscara dinâmica, que mantém uma precisão de 100% na tarefa mais desafiadora de recordação associativa de múltiplas consultas, melhorando em mais de 150% em comparação com a autoatenção causal quadrática e a dualidade de espaço de estado, garantindo que a transformação de sequência combinada filtre seletivamente informações relevantes. Em terceiro lugar, projetamos a mistura de especialistas de domínios cruzados, que torna a velocidade computacional da recuperação de especialistas com mais de 1024 especialistas de 8 a 10 vezes mais rápida do que a mistura de especialistas, garantindo que a transformação de estado combinada recupere rapidamente a mistura. Por fim, resumimos esses algoritmos de matriz que podem formar o modelo base: Matrizes Maravilhosas, que podem competir com arquiteturas de modelo populares.
English
In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.

Summary

AI-Generated Summary

PDF82December 17, 2024