ChatPaper.aiChatPaper

DenseMamba: Toestandsruimtemodellen met Dichte Verborgen Verbindingen voor Efficiënte Grote Taalmodellen

DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models

February 26, 2024
Auteurs: Wei He, Kai Han, Yehui Tang, Chengcheng Wang, Yujie Yang, Tianyu Guo, Yunhe Wang
cs.AI

Samenvatting

Grote taalmodellen (LLM's) worden geconfronteerd met een enorme uitdaging vanwege de buitensporige reken- en geheugeneisen van het veelgebruikte Transformer-architectuur. Hoewel het state space model (SSM) een nieuw type fundamentele netwerkarchitectuur is dat een lagere rekencomplexiteit biedt, moet de prestaties nog volledig kunnen concurreren met die van Transformers. Dit artikel introduceert DenseSSM, een nieuwe benadering om de doorstroming van verborgen informatie tussen lagen in SSM's te verbeteren. Door selectief verborgen toestanden van ondiepe lagen te integreren in diepere lagen, behoudt DenseSSM fijnmazige informatie die cruciaal is voor de uiteindelijke output. Dichte verbindingen versterken DenseSSM, terwijl het nog steeds de paralleliseerbaarheid van training en de efficiëntie van inferentie behoudt. De voorgestelde methode kan breed toepasbaar zijn op verschillende SSM-types zoals RetNet en Mamba. Met een vergelijkbare modelgrootte behaalt DenseSSM aanzienlijke verbeteringen, geïllustreerd door DenseRetNet dat het originele RetNet overtreft met een nauwkeurigheidsverbetering van tot wel 5% op openbare benchmarks.
English
Large language models (LLMs) face a daunting challenge due to the excessive computational and memory requirements of the commonly used Transformer architecture. While state space model (SSM) is a new type of foundational network architecture offering lower computational complexity, their performance has yet to fully rival that of Transformers. This paper introduces DenseSSM, a novel approach to enhance the flow of hidden information between layers in SSMs. By selectively integrating shallowlayer hidden states into deeper layers, DenseSSM retains fine-grained information crucial for the final output. Dense connections enhanced DenseSSM still maintains the training parallelizability and inference efficiency. The proposed method can be widely applicable to various SSM types like RetNet and Mamba. With similar model size, DenseSSM achieves significant improvements, exemplified by DenseRetNet outperforming the original RetNet with up to 5% accuracy improvement on public benchmarks.
PDF192December 15, 2024