ChatPaper.aiChatPaper

Сети с воротцами Дельта: Улучшение Mamba2 с помощью правила Дельта.

Gated Delta Networks: Improving Mamba2 with Delta Rule

December 9, 2024
Авторы: Songlin Yang, Jan Kautz, Ali Hatamizadeh
cs.AI

Аннотация

Линейные трансформеры привлекли внимание как эффективная альтернатива стандартным трансформерам, однако их производительность в задачах поиска и обработки длинных контекстов ограничена. Для преодоления этих ограничений недавние исследования исследовали два различных механизма: ворота для адаптивного управления памятью и правило обновления дельта для точных модификаций памяти. Мы замечаем, что эти механизмы дополняют друг друга: ворота обеспечивают быстрое стирание памяти, в то время как правило дельта облегчает целенаправленные обновления. Основываясь на этом понимании, мы представляем воротно-дельтовое правило и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, на нескольких бенчмарках, включая языковое моделирование, рассуждения на здравый смысл, поиск в контексте, экстраполяцию длины и понимание длинных контекстов. Мы дополнительно улучшаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием со скользящим окном или слоями Mamba2, достигая как улучшенной эффективности обучения, так и превосходной производительности в задачах.
English
Linear Transformers have gained attention as efficient alternatives to standard Transformers, but their performance in retrieval and long-context tasks has been limited. To address these limitations, recent work has explored two distinct mechanisms: gating for adaptive memory control and the delta update rule for precise memory modifications. We observe that these mechanisms are complementary: gating enables rapid memory erasure while the delta rule facilitates targeted updates. Building on this insight, we introduce the gated delta rule and develop a parallel training algorithm optimized for modern hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses existing models like Mamba2 and DeltaNet across multiple benchmarks, including language modeling, common-sense reasoning, in-context retrieval, length extrapolation, and long-context understanding. We further enhance performance by developing hybrid architectures that combine Gated DeltaNet layers with sliding window attention or Mamba2 layers, achieving both improved training efficiency and superior task performance.

Summary

AI-Generated Summary

PDF113December 10, 2024