ChatPaper.aiChatPaper

차등 맘바

Differential Mamba

July 8, 2025
저자: Nadav Schneider, Itamar Zimerman, Eliya Nachmani
cs.AI

초록

트랜스포머(Transformers) 및 RNN과 같은 시퀀스 모델은 종종 관련 없는 컨텍스트에 과도하게 주의를 할당하여 노이즈가 많은 중간 표현을 생성합니다. 이는 환각(hallucination)을 촉진하고, 장거리 및 검색 능력을 약화시키며, 견고성을 감소시켜 대형 언어 모델(LLM)의 성능을 저하시킵니다. 최근 연구에 따르면, 차별적 설계(differential design)를 통해 트랜스포머에서 이러한 문제를 완화할 수 있으며, 이를 통해 다양한 애플리케이션에서의 효과를 개선할 수 있음이 입증되었습니다. 본 논문에서는 트랜스포머를 위해 개발된 이러한 기술이, 최근 등장한 선택적 상태-공간 레이어(selective state-space layers)를 기반으로 트랜스포머 수준의 성능을 더 높은 효율성으로 달성하는 Mamba 아키텍처에 적용될 수 있는지 탐구합니다. 우리는 Mamba에 차별적 설계를 단순히 적용하는 것만으로는 충분하지 않으며, 신중한 아키텍처 수정이 필요함을 보여줍니다. 이를 해결하기 위해, 우리는 Mamba를 위한 새로운 차별적 메커니즘을 제안하고, 언어 모델링 벤치마크에서 실험적으로 검증하여 검색 능력의 개선 및 기본 Mamba 대비 우수한 성능을 입증합니다. 마지막으로, 우리는 설계 선택을 정당화하고 Mamba 기반 모델에서의 과도한 주의 할당 문제를 효과적으로 완화한다는 증거를 제공하기 위해 광범위한 제거 연구(ablation studies)와 실험적 분석을 수행합니다. 우리의 코드는 공개되어 있습니다.
English
Sequence models like Transformers and RNNs often overallocate attention to irrelevant context, leading to noisy intermediate representations. This degrades LLM capabilities by promoting hallucinations, weakening long-range and retrieval abilities, and reducing robustness. Recent work has shown that differential design can mitigate this issue in Transformers, improving their effectiveness across various applications. In this paper, we explore whether these techniques, originally developed for Transformers, can be applied to Mamba, a recent architecture based on selective state-space layers that achieves Transformer-level performance with greater efficiency. We show that a naive adaptation of differential design to Mamba is insufficient and requires careful architectural modifications. To address this, we introduce a novel differential mechanism for Mamba, empirically validated on language modeling benchmarks, demonstrating improved retrieval capabilities and superior performance over vanilla Mamba. Finally, we conduct extensive ablation studies and empirical analyses to justify our design choices and provide evidence that our approach effectively mitigates the overallocation problem in Mamba-based models. Our code is publicly available.
PDF163July 9, 2025