ChatPaper.aiChatPaper

Verständnis und Reduzierung von Engpässen in Zustandsraummodellen durch die Betrachtung von Aktualität und Überglättung.

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

December 31, 2024
Autoren: Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li
cs.AI

Zusammenfassung

Strukturierte Zustandsraummodelle (SSMs) haben sich als Alternativen zu Transformatoren etabliert. Während SSMs oft als effektiv bei der Erfassung von Abhängigkeiten über lange Sequenzen angesehen werden, zeigen wir nachdrücklich, dass sie grundsätzlich durch eine starke Rezentheitsverzerrung begrenzt sind. Unsere empirischen Studien zeigen auch, dass diese Verzerrung die Fähigkeit der Modelle zur Erinnerung an entfernte Informationen beeinträchtigt und Robustheitsprobleme einführt. Unsere Skalierungsexperimente haben dann entdeckt, dass tiefere Strukturen in SSMs das Erlernen langer Kontexte erleichtern können. Allerdings zeigt die nachfolgende theoretische Analyse, dass mit zunehmender Tiefe der SSMs eine weitere unvermeidliche Tendenz zur Überglättung besteht, z. B. werden Token-Repräsentationen zunehmend ununterscheidbar. Dieses grundlegende Dilemma zwischen Rezentheit und Überglättung behindert die Skalierbarkeit bestehender SSMs. Inspiriert von unseren theoretischen Erkenntnissen schlagen wir vor, die beiden Kanäle der Zustandsübergangsmatrizen in SSMs zu polarisieren, indem wir sie gleichzeitig auf Null und Eins setzen, um sowohl die Rezentheitsverzerrung als auch die Überglättung anzugehen. Experimente zeigen, dass unsere Polarisierungstechnik die assoziative Abrufgenauigkeit von Tokens über lange Distanzen konsistent verbessert und SSMs ermöglicht, weiterhin von tieferen Architekturen zu profitieren. Alle Quellcodes sind unter https://github.com/VITA-Group/SSM-Bottleneck verfügbar.
English
Structured State Space Models (SSMs) have emerged as alternatives to transformers. While SSMs are often regarded as effective in capturing long-sequence dependencies, we rigorously demonstrate that they are inherently limited by strong recency bias. Our empirical studies also reveal that this bias impairs the models' ability to recall distant information and introduces robustness issues. Our scaling experiments then discovered that deeper structures in SSMs can facilitate the learning of long contexts. However, subsequent theoretical analysis reveals that as SSMs increase in depth, they exhibit another inevitable tendency toward over-smoothing, e.g., token representations becoming increasingly indistinguishable. This fundamental dilemma between recency and over-smoothing hinders the scalability of existing SSMs. Inspired by our theoretical findings, we propose to polarize two channels of the state transition matrices in SSMs, setting them to zero and one, respectively, simultaneously addressing recency bias and over-smoothing. Experiments demonstrate that our polarization technique consistently enhances the associative recall accuracy of long-range tokens and unlocks SSMs to benefit further from deeper architectures. All source codes are released at https://github.com/VITA-Group/SSM-Bottleneck.

Summary

AI-Generated Summary

PDF72January 3, 2025