Mamba Differenziale

Abstract

I modelli sequenziali come i Transformer e le RNN spesso allocano eccessivamente l'attenzione a contesti irrilevanti, portando a rappresentazioni intermedie rumorose. Ciò compromette le capacità dei LLM favorendo allucinazioni, indebolendo le capacità di gestione di contesti a lungo raggio e di recupero delle informazioni, e riducendo la robustezza. Recenti lavori hanno dimostrato che un design differenziale può mitigare questo problema nei Transformer, migliorandone l'efficacia in varie applicazioni. In questo articolo, esploriamo se queste tecniche, originariamente sviluppate per i Transformer, possano essere applicate a Mamba, una recente architettura basata su strati di spazio degli stati selettivi che raggiunge prestazioni paragonabili ai Transformer con maggiore efficienza. Mostriamo che un adattamento ingenuo del design differenziale a Mamba è insufficiente e richiede modifiche architetturali accurate. Per affrontare questo problema, introduciamo un nuovo meccanismo differenziale per Mamba, validato empiricamente su benchmark di modellazione del linguaggio, dimostrando capacità di recupero migliorate e prestazioni superiori rispetto alla versione base di Mamba. Infine, conduciamo ampi studi di ablazione e analisi empiriche per giustificare le nostre scelte progettuali e fornire evidenze che il nostro approccio mitiga efficacemente il problema di sovraallocazione nei modelli basati su Mamba. Il nostro codice è pubblicamente disponibile.

English

Sequence models like Transformers and RNNs often overallocate attention to irrelevant context, leading to noisy intermediate representations. This degrades LLM capabilities by promoting hallucinations, weakening long-range and retrieval abilities, and reducing robustness. Recent work has shown that differential design can mitigate this issue in Transformers, improving their effectiveness across various applications. In this paper, we explore whether these techniques, originally developed for Transformers, can be applied to Mamba, a recent architecture based on selective state-space layers that achieves Transformer-level performance with greater efficiency. We show that a naive adaptation of differential design to Mamba is insufficient and requires careful architectural modifications. To address this, we introduce a novel differential mechanism for Mamba, empirically validated on language modeling benchmarks, demonstrating improved retrieval capabilities and superior performance over vanilla Mamba. Finally, we conduct extensive ablation studies and empirical analyses to justify our design choices and provide evidence that our approach effectively mitigates the overallocation problem in Mamba-based models. Our code is publicly available.

Mamba Differenziale

Differential Mamba

Abstract

Support