UltraMemV2: Масштабирование сетей памяти до 120 миллиардов параметров с превосходным обучением на длинных контекстах

Аннотация

Хотя модели Mixture of Experts (MoE) достигают впечатляющей эффективности за счет активации только подмножеств параметров, они страдают от высоких затрат на доступ к памяти во время вывода. Архитектуры с использованием слоев памяти предлагают привлекательную альтернативу с минимальным количеством обращений к памяти, но предыдущие попытки, такие как UltraMem, лишь соответствовали производительности моделей MoE с 2 экспертами, значительно уступая современным конфигурациям с 8 экспертами. Мы представляем UltraMemV2 — переработанную архитектуру с использованием слоев памяти, которая устраняет этот разрыв в производительности. Наш подход включает пять ключевых улучшений: интеграцию слоев памяти в каждый блок трансформера, упрощение расширения значений с помощью одиночных линейных проекций, использование обработки значений на основе FFN из PEER, внедрение принципиальной инициализации параметров и перебалансировку соотношения вычислений между памятью и FFN. В ходе обширной оценки мы демонстрируем, что UltraMemV2 достигает паритета производительности с моделями MoE с 8 экспертами при одинаковых вычислительных затратах и количестве параметров, но с значительно меньшим количеством обращений к памяти. Примечательно, что UltraMemV2 показывает превосходную производительность на задачах, интенсивно использующих память, с улучшениями на +1,6 балла в запоминании длинных контекстов, +6,2 балла в многораундовом запоминании и +7,9 балла в обучении в контексте. Мы подтверждаем наш подход на масштабных моделях с активированными параметрами до 2,5 млрд из общего числа 120 млрд параметров и устанавливаем, что плотность активации оказывает большее влияние на производительность, чем общее количество разреженных параметров. Наша работа выводит архитектуры с использованием слоев памяти на уровень производительности современных моделей MoE, предлагая убедительную альтернативу для эффективных разреженных вычислений.

English

While Mixture of Experts (MoE) models achieve remarkable efficiency by activating only subsets of parameters, they suffer from high memory access costs during inference. Memory-layer architectures offer an appealing alternative with very few memory access, but previous attempts like UltraMem have only matched the performance of 2-expert MoE models, falling significantly short of state-of-the-art 8-expert configurations. We present UltraMemV2, a redesigned memory-layer architecture that closes this performance gap. Our approach introduces five key improvements: integrating memory layers into every transformer block, simplifying value expansion with single linear projections, adopting FFN-based value processing from PEER, implementing principled parameter initialization, and rebalancing memory-to-FFN computation ratios. Through extensive evaluation, we demonstrate that UltraMemV2 achieves performance parity with 8-expert MoE models under same computation and parameters but significantly low memory access. Notably, UltraMemV2 shows superior performance on memory-intensive tasks, with improvements of +1.6 points on long-context memorization, +6.2 points on multi-round memorization, and +7.9 points on in-context learning. We validate our approach at scale with models up to 2.5B activated parameters from 120B total parameters, and establish that activation density has greater impact on performance than total sparse parameter count. Our work brings memory-layer architectures to performance parity with state-of-the-art MoE models, presenting a compelling alternative for efficient sparse computation.

UltraMemV2: Масштабирование сетей памяти до 120 миллиардов параметров с превосходным обучением на длинных контекстах

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Аннотация

Support