Het begrijpen en verminderen van knelpunten van toestandsruimtemodellen door de lens van recentheid en overgladstrijken.
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing
December 31, 2024
Auteurs: Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li
cs.AI
Samenvatting
Gestructureerde toestandsruimtemodellen (SSM's) zijn naar voren gekomen als alternatieven voor transformers. Hoewel SSM's vaak worden beschouwd als effectief in het vastleggen van lange sequentie-afhankelijkheden, tonen we rigoureus aan dat ze inherent beperkt zijn door sterke recente vooringenomenheid. Onze empirische studies onthullen ook dat deze vooringenomenheid de modellen belemmert om verre informatie te onthouden en robuustheidsproblemen introduceert. Onze schalingsexperimenten hebben vervolgens ontdekt dat diepere structuren in SSM's het leren van lange contexten kunnen vergemakkelijken. Echter, daaropvolgende theoretische analyse onthult dat naarmate SSM's in diepte toenemen, ze een andere onvermijdelijke neiging vertonen naar overmatig gladstrijken, bijvoorbeeld, tokenrepresentaties steeds moeilijker te onderscheiden worden. Dit fundamentele dilemma tussen recente vooringenomenheid en overmatig gladstrijken belemmert de schaalbaarheid van bestaande SSM's. Geïnspireerd door onze theoretische bevindingen stellen we voor om twee kanalen van de toestandsovergangsmatrices in SSM's te polariseren, door ze respectievelijk op nul en één in te stellen, waardoor zowel de recente vooringenomenheid als het overmatig gladstrijken tegelijkertijd worden aangepakt. Experimenten tonen aan dat onze polarisatietechniek consequent de associatieve herroepingsnauwkeurigheid van verre tokens verbetert en SSM's ontgrendelt om verder te profiteren van diepere architecturen. Alle broncodes zijn vrijgegeven op https://github.com/VITA-Group/SSM-Bottleneck.
English
Structured State Space Models (SSMs) have emerged as alternatives to
transformers. While SSMs are often regarded as effective in capturing
long-sequence dependencies, we rigorously demonstrate that they are inherently
limited by strong recency bias. Our empirical studies also reveal that this
bias impairs the models' ability to recall distant information and introduces
robustness issues. Our scaling experiments then discovered that deeper
structures in SSMs can facilitate the learning of long contexts. However,
subsequent theoretical analysis reveals that as SSMs increase in depth, they
exhibit another inevitable tendency toward over-smoothing, e.g., token
representations becoming increasingly indistinguishable. This fundamental
dilemma between recency and over-smoothing hinders the scalability of existing
SSMs. Inspired by our theoretical findings, we propose to polarize two channels
of the state transition matrices in SSMs, setting them to zero and one,
respectively, simultaneously addressing recency bias and over-smoothing.
Experiments demonstrate that our polarization technique consistently enhances
the associative recall accuracy of long-range tokens and unlocks SSMs to
benefit further from deeper architectures. All source codes are released at
https://github.com/VITA-Group/SSM-Bottleneck.Summary
AI-Generated Summary