ChatPaper.aiChatPaper

Замечательные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели.

Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

December 16, 2024
Авторы: Jingze Shi, Bingheng Wu
cs.AI

Аннотация

Для повышения эффективности и эффективности базовой модели наша идея заключается в комбинировании преобразования последовательности и преобразования состояния. Во-первых, мы доказываем доступность встраивания вращающегося положения в алгоритм дуальности пространства состояний, что снижает непонимание гибридного квадратичного причинного самовнимания и дуальности пространства состояний более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательности объединяет кодирование позиции. Во-вторых, мы предлагаем динамическое внимание с маской, которое поддерживает 100% точность в более сложной многозапросной ассоциативной задаче воспоминания, улучшая более чем на 150% по сравнению с квадратичным причинным самовниманием и дуальностью пространства состояний, чтобы гарантировать, что комбинирование преобразования последовательности выборочно фильтрует соответствующую информацию. В-третьих, мы разрабатываем кросс-доменный смешанный экспертов, что делает вычислительную скорость извлечения экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смесь экспертов, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы обобщаем эти матричные алгоритмы, которые могут составить базовую модель: Замечательные Матрицы, которые могут быть конкурентами популярным архитектурам моделей.
English
In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.

Summary

AI-Generated Summary

PDF82December 17, 2024