Sobre arquitecturas subcuadráticas: de las aplicaciones a los principios

Resumen

Los transformadores dominan el modelado moderno de secuencias, pero su atención cuadrática conlleva un coste computacional sustancial. Las arquitecturas subcuadráticas ofrecen una alternativa escalable. Sin embargo, aún no está claro qué diseños producen los modelos de secuencias más efectivos. Comparamos tres enfoques principales: xLSTM, Mamba-2 y Gated DeltaNet. Evaluamos estos modelos en tareas con dependencias complejas: (1) preentrenamiento de modelos de código, (2) destilación de modelos de código a partir de modelos de lenguaje grandes, y (3) preentrenamiento de modelos fundacionales de series temporales. En estos escenarios, xLSTM ofrece el rendimiento general más sólido. Para explicar la ventaja de xLSTM, presentamos una formulación unificada y analizamos los mecanismos arquitectónicos subyacentes, centrándonos en el seguimiento de estado y las dinámicas de memoria. Nuestros resultados muestran que xLSTM permite una corrección de memoria más flexible y estable mediante su esquema de compuertas. Corroboramos estos hallazgos en tareas sintéticas controladas de generalización de longitud. En general, nuestros resultados indican que las ganancias de xLSTM en tareas complejas provienen de un robusto seguimiento y acumulación de estado.

English

Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leading approaches: xLSTM, Mamba-2, and Gated DeltaNet. We evaluate these models on tasks with complex dependencies: (1) code-model pre-training, (2) distillation of code models from large language models, and (3) pre-training of time-series foundation models. Across these settings, xLSTM delivers the strongest overall performance. To explain xLSTM's advantage, we present a unified formulation and analyze the underlying architectural mechanisms, focusing on state tracking and memory dynamics. Our results show that xLSTM enables more flexible and stable memory correction via its gating scheme. We corroborate these findings on controlled synthetic length-generalization tasks. Overall, our findings indicate that xLSTM's gains on complex tasks stem from robust state tracking and accumulation.