Differentiële Mamba

Samenvatting

Sequentiemodellen zoals Transformers en RNN's besteden vaak te veel aandacht aan irrelevante context, wat leidt tot ruis in de tussenliggende representaties. Dit vermindert de capaciteiten van LLM's door hallucinaties te bevorderen, het vermogen voor langeafstandsrelaties en retrieval te verzwakken, en de robuustheid te verminderen. Recent onderzoek heeft aangetoond dat differentieel ontwerp dit probleem in Transformers kan mitigeren, waardoor hun effectiviteit in diverse toepassingen verbetert. In dit artikel onderzoeken we of deze technieken, oorspronkelijk ontwikkeld voor Transformers, kunnen worden toegepast op Mamba, een recente architectuur gebaseerd op selectieve state-space lagen die Transformer-niveau prestaties behaalt met grotere efficiëntie. We laten zien dat een naïeve aanpassing van differentieel ontwerp aan Mamba onvoldoende is en zorgvuldige architectonische aanpassingen vereist. Om dit aan te pakken, introduceren we een nieuw differentieel mechanisme voor Mamba, empirisch gevalideerd op taalmodelleringsbenchmarks, dat verbeterde retrieval-capaciteiten en superieure prestaties ten opzichte van standaard Mamba aantoont. Tot slot voeren we uitgebreide ablatiestudies en empirische analyses uit om onze ontwerpkeuzes te rechtvaardigen en bewijs te leveren dat onze aanpak het probleem van overmatige aandachtstoewijzing in Mamba-gebaseerde modellen effectief mitigeert. Onze code is publiekelijk beschikbaar.

English

Sequence models like Transformers and RNNs often overallocate attention to irrelevant context, leading to noisy intermediate representations. This degrades LLM capabilities by promoting hallucinations, weakening long-range and retrieval abilities, and reducing robustness. Recent work has shown that differential design can mitigate this issue in Transformers, improving their effectiveness across various applications. In this paper, we explore whether these techniques, originally developed for Transformers, can be applied to Mamba, a recent architecture based on selective state-space layers that achieves Transformer-level performance with greater efficiency. We show that a naive adaptation of differential design to Mamba is insufficient and requires careful architectural modifications. To address this, we introduce a novel differential mechanism for Mamba, empirically validated on language modeling benchmarks, demonstrating improved retrieval capabilities and superior performance over vanilla Mamba. Finally, we conduct extensive ablation studies and empirical analyses to justify our design choices and provide evidence that our approach effectively mitigates the overallocation problem in Mamba-based models. Our code is publicly available.

Differentiële Mamba

Differential Mamba

Samenvatting

Support