ChatPaper.aiChatPaper

Redes Delta con compuertas: Mejorando Mamba2 con la Regla Delta

Gated Delta Networks: Improving Mamba2 with Delta Rule

December 9, 2024
Autores: Songlin Yang, Jan Kautz, Ali Hatamizadeh
cs.AI

Resumen

Los Transformadores Lineales han ganado atención como alternativas eficientes a los Transformadores estándar, pero su rendimiento en tareas de recuperación y contexto largo ha sido limitado. Para abordar estas limitaciones, trabajos recientes han explorado dos mecanismos distintos: el enrutamiento para el control adaptativo de la memoria y la regla de actualización delta para modificaciones precisas de la memoria. Observamos que estos mecanismos son complementarios: el enrutamiento permite un borrado rápido de la memoria mientras que la regla delta facilita actualizaciones dirigidas. Basándonos en esta percepción, presentamos la regla delta enrutada y desarrollamos un algoritmo de entrenamiento paralelo optimizado para hardware moderno. Nuestra arquitectura propuesta, Gated DeltaNet, supera consistentemente a modelos existentes como Mamba2 y DeltaNet en múltiples pruebas, incluyendo modelado de lenguaje, razonamiento de sentido común, recuperación en contexto, extrapolación de longitud y comprensión de contexto largo. Mejoramos aún más el rendimiento desarrollando arquitecturas híbridas que combinan capas de Gated DeltaNet con atención de ventana deslizante o capas de Mamba2, logrando tanto una eficiencia de entrenamiento mejorada como un rendimiento superior en las tareas.
English
Linear Transformers have gained attention as efficient alternatives to standard Transformers, but their performance in retrieval and long-context tasks has been limited. To address these limitations, recent work has explored two distinct mechanisms: gating for adaptive memory control and the delta update rule for precise memory modifications. We observe that these mechanisms are complementary: gating enables rapid memory erasure while the delta rule facilitates targeted updates. Building on this insight, we introduce the gated delta rule and develop a parallel training algorithm optimized for modern hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses existing models like Mamba2 and DeltaNet across multiple benchmarks, including language modeling, common-sense reasoning, in-context retrieval, length extrapolation, and long-context understanding. We further enhance performance by developing hybrid architectures that combine Gated DeltaNet layers with sliding window attention or Mamba2 layers, achieving both improved training efficiency and superior task performance.

Summary

AI-Generated Summary

PDF113December 10, 2024