ChatPaper.aiChatPaper

Wunderbare Matrizen: Kombination für eine effizientere und effektivere Grundlagenmodellarchitektur

Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

December 16, 2024
Autoren: Jingze Shi, Bingheng Wu
cs.AI

Zusammenfassung

Um das Grundlagenmodell effizienter und effektiver zu gestalten, besteht unsere Idee darin, Sequenztransformation und Zustandstransformation zu kombinieren. Zunächst weisen wir die Verfügbarkeit der Rotationseinbettung im Zustandsraum-Dualitätsalgorithmus nach, was die Unklarheit der hybriden quadratischen kausalen Selbst-Aufmerksamkeit und Zustandsraum-Dualität um mehr als 4% reduziert, um sicherzustellen, dass die Kombination der Sequenztransformation die Positionscodierung vereinheitlicht. Zweitens schlagen wir dynamische Maskenaufmerksamkeit vor, die in der anspruchsvolleren Multi-Query assoziativen Abrufaufgabe eine Genauigkeit von 100% beibehält und im Vergleich zur quadratischen kausalen Selbst-Aufmerksamkeit und Zustandsraum-Dualität um mehr als 150% verbessert wird, um sicherzustellen, dass die Kombination der Sequenztransformation selektiv relevante Informationen filtert. Drittens entwerfen wir ein Cross-Domain-Mixture-of-Experts, das die Rechengeschwindigkeit der Expertenabfrage mit mehr als 1024 Experten um das 8- bis 10-fache schneller macht als das Mixture-of-Experts, um sicherzustellen, dass die Kombination der Zustandstransformation die Mischung schnell abruft. Schließlich fassen wir diese Matrixalgorithmen zusammen, die das Grundlagenmodell bilden können: Wunderbare Matrizen, die ein Konkurrent zu beliebten Modellarchitekturen sein können.
English
In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.

Summary

AI-Generated Summary

PDF82December 17, 2024