Über subquadratische Architekturen: Von Anwendungen zu Prinzipien

Zusammenfassung

Transformer dominieren die moderne Sequenzmodellierung, aber ihre quadratische Aufmerksamkeit verursacht erhebliche Rechenkosten. Subquadratische Architekturen bieten eine skalierbare Alternative. Es bleibt jedoch unklar, welche Entwürfe die effektivsten Sequenzmodelle hervorbringen. Wir vergleichen drei führende Ansätze: xLSTM, Mamba-2 und Gated DeltaNet. Wir evaluieren diese Modelle an Aufgaben mit komplexen Abhängigkeiten: (1) Code-Modell-Vortraining, (2) Destillation von Code-Modellen aus großen Sprachmodellen und (3) Vortraining von Zeitreihen-Grundlagenmodellen. In all diesen Szenarien liefert xLSTM die insgesamt stärkste Leistung. Um den Vorteil von xLSTM zu erklären, präsentieren wir eine einheitliche Formulierung und analysieren die zugrunde liegenden architektonischen Mechanismen, wobei wir uns auf Zustandsverfolgung und Gedächtnisdynamik konzentrieren. Unsere Ergebnisse zeigen, dass xLSTM durch seinen Gating-Mechanismus eine flexiblere und stabilere Gedächtniskorrektur ermöglicht. Wir untermauern diese Erkenntnisse anhand kontrollierter synthetischer Längengeneralisierungsaufgaben. Insgesamt deuten unsere Ergebnisse darauf hin, dass die Gewinne von xLSTM bei komplexen Aufgaben auf einer robusten Zustandsverfolgung und -akkumulation beruhen.

English

Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leading approaches: xLSTM, Mamba-2, and Gated DeltaNet. We evaluate these models on tasks with complex dependencies: (1) code-model pre-training, (2) distillation of code models from large language models, and (3) pre-training of time-series foundation models. Across these settings, xLSTM delivers the strongest overall performance. To explain xLSTM's advantage, we present a unified formulation and analyze the underlying architectural mechanisms, focusing on state tracking and memory dynamics. Our results show that xLSTM enables more flexible and stable memory correction via its gating scheme. We corroborate these findings on controlled synthetic length-generalization tasks. Overall, our findings indicate that xLSTM's gains on complex tasks stem from robust state tracking and accumulation.