UltraMemV2: Redes de Memória Escalando para 120 Bilhões de Parâmetros com Aprendizado Superior de Contexto Longo

Resumo

Embora os modelos de Mistura de Especialistas (MoE) alcancem eficiência notável ao ativar apenas subconjuntos de parâmetros, eles sofrem com altos custos de acesso à memória durante a inferência. As arquiteturas de camadas de memória oferecem uma alternativa atraente com muito poucos acessos à memória, mas tentativas anteriores, como o UltraMem, só conseguiram igualar o desempenho de modelos MoE com 2 especialistas, ficando significativamente aquém das configurações state-of-the-art com 8 especialistas. Apresentamos o UltraMemV2, uma arquitetura de camadas de memória redesenhada que fecha essa lacuna de desempenho. Nossa abordagem introduz cinco melhorias principais: integração de camadas de memória em cada bloco do transformer, simplificação da expansão de valores com projeções lineares únicas, adoção do processamento de valores baseado em FFN do PEER, implementação de inicialização de parâmetros fundamentada e reequilíbrio das proporções de computação entre memória e FFN. Por meio de avaliação extensiva, demonstramos que o UltraMemV2 alcança paridade de desempenho com modelos MoE de 8 especialistas sob a mesma computação e parâmetros, mas com acesso à memória significativamente menor. Notavelmente, o UltraMemV2 mostra desempenho superior em tarefas intensivas em memória, com melhorias de +1,6 pontos em memorização de contexto longo, +6,2 pontos em memorização de múltiplas rodadas e +7,9 pontos em aprendizado em contexto. Validamos nossa abordagem em escala com modelos de até 2,5 bilhões de parâmetros ativados de um total de 120 bilhões de parâmetros, e estabelecemos que a densidade de ativação tem maior impacto no desempenho do que a contagem total de parâmetros esparsos. Nosso trabalho leva as arquiteturas de camadas de memória à paridade de desempenho com os modelos MoE state-of-the-art, apresentando uma alternativa convincente para computação esparsa eficiente.

English

While Mixture of Experts (MoE) models achieve remarkable efficiency by activating only subsets of parameters, they suffer from high memory access costs during inference. Memory-layer architectures offer an appealing alternative with very few memory access, but previous attempts like UltraMem have only matched the performance of 2-expert MoE models, falling significantly short of state-of-the-art 8-expert configurations. We present UltraMemV2, a redesigned memory-layer architecture that closes this performance gap. Our approach introduces five key improvements: integrating memory layers into every transformer block, simplifying value expansion with single linear projections, adopting FFN-based value processing from PEER, implementing principled parameter initialization, and rebalancing memory-to-FFN computation ratios. Through extensive evaluation, we demonstrate that UltraMemV2 achieves performance parity with 8-expert MoE models under same computation and parameters but significantly low memory access. Notably, UltraMemV2 shows superior performance on memory-intensive tasks, with improvements of +1.6 points on long-context memorization, +6.2 points on multi-round memorization, and +7.9 points on in-context learning. We validate our approach at scale with models up to 2.5B activated parameters from 120B total parameters, and establish that activation density has greater impact on performance than total sparse parameter count. Our work brings memory-layer architectures to performance parity with state-of-the-art MoE models, presenting a compelling alternative for efficient sparse computation.

UltraMemV2: Redes de Memória Escalando para 120 Bilhões de Parâmetros com Aprendizado Superior de Contexto Longo

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Resumo

Support