Redes Delta com Portões: Melhorando o Mamba2 com a Regra Delta
Gated Delta Networks: Improving Mamba2 with Delta Rule
December 9, 2024
Autores: Songlin Yang, Jan Kautz, Ali Hatamizadeh
cs.AI
Resumo
Os Transformadores Lineares têm ganhado atenção como alternativas eficientes aos Transformadores padrão, porém seu desempenho em tarefas de recuperação e contexto longo tem sido limitado. Para lidar com essas limitações, trabalhos recentes têm explorado dois mecanismos distintos: o gating para controle adaptativo de memória e a regra de atualização delta para modificações precisas de memória. Observamos que esses mecanismos são complementares: o gating permite um apagamento rápido de memória enquanto a regra delta facilita atualizações direcionadas. Com base nessa percepção, introduzimos a regra delta gateada e desenvolvemos um algoritmo de treinamento paralelo otimizado para hardware moderno. Nossa arquitetura proposta, Gated DeltaNet, consistentemente supera modelos existentes como Mamba2 e DeltaNet em múltiplos benchmarks, incluindo modelagem de linguagem, raciocínio de senso comum, recuperação em contexto, extrapolação de comprimento e compreensão de contexto longo. Ainda melhoramos o desempenho ao desenvolver arquiteturas híbridas que combinam camadas Gated DeltaNet com atenção de janela deslizante ou camadas Mamba2, alcançando tanto eficiência de treinamento aprimorada quanto desempenho superior nas tarefas.
English
Linear Transformers have gained attention as efficient alternatives to
standard Transformers, but their performance in retrieval and long-context
tasks has been limited. To address these limitations, recent work has explored
two distinct mechanisms: gating for adaptive memory control and the delta
update rule for precise memory modifications. We observe that these mechanisms
are complementary: gating enables rapid memory erasure while the delta rule
facilitates targeted updates. Building on this insight, we introduce the gated
delta rule and develop a parallel training algorithm optimized for modern
hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses
existing models like Mamba2 and DeltaNet across multiple benchmarks, including
language modeling, common-sense reasoning, in-context retrieval, length
extrapolation, and long-context understanding. We further enhance performance
by developing hybrid architectures that combine Gated DeltaNet layers with
sliding window attention or Mamba2 layers, achieving both improved training
efficiency and superior task performance.Summary
AI-Generated Summary