Sur les architectures subquadratiques : des applications aux principes

Résumé

Les Transformers dominent la modélisation séquentielle moderne, mais leur mécanisme d'attention quadratique entraîne un coût de calcul substantiel. Les architectures sous-quadratiques offrent une alternative scalable. Cependant, il reste flou quels designs produisent les modèles séquentiels les plus efficaces. Nous comparons trois approches majeures : xLSTM, Mamba-2 et Gated DeltaNet. Nous évaluons ces modèles sur des tâches présentant des dépendances complexes : (1) pré-entraînement de modèles de code, (2) distillation de modèles de code à partir de grands modèles de langage, et (3) pré-entraînement de modèles fondation pour séries temporelles. Dans ces contextes, xLSTM offre la meilleure performance globale. Pour expliquer l'avantage de xLSTM, nous présentons une formulation unifiée et analysons les mécanismes architecturaux sous-jacents, en mettant l'accent sur le suivi d'état et la dynamique de mémoire. Nos résultats montrent que xLSTM permet une correction de mémoire plus flexible et plus stable grâce à son schéma de portes. Nous corroborons ces observations sur des tâches contrôlées de généralisation de longueur synthétique. Globalement, nos résultats indiquent que les gains de xLSTM sur les tâches complexes proviennent d'un suivi et d'une accumulation d'état robustes.

English

Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leading approaches: xLSTM, Mamba-2, and Gated DeltaNet. We evaluate these models on tasks with complex dependencies: (1) code-model pre-training, (2) distillation of code models from large language models, and (3) pre-training of time-series foundation models. Across these settings, xLSTM delivers the strongest overall performance. To explain xLSTM's advantage, we present a unified formulation and analyze the underlying architectural mechanisms, focusing on state tracking and memory dynamics. Our results show that xLSTM enables more flexible and stable memory correction via its gating scheme. We corroborate these findings on controlled synthetic length-generalization tasks. Overall, our findings indicate that xLSTM's gains on complex tasks stem from robust state tracking and accumulation.