Modélisation visuelle globale en temps linéaire sans attention explicite

Résumé

Les recherches existantes attribuent largement la capacité de modélisation de séquences globale des Transformers au calcul explicite des poids d'attention, un processus qui engendre intrinsèquement une complexité computationnelle quadratique. Dans ce travail, nous proposons une perspective novatrice : nous démontrons que l'attention peut être reformulée mathématiquement comme un Perceptron Multicouche (MLP) doté de paramètres prédits dynamiquement. À travers ce prisme, nous expliquons la puissance de modélisation globale de l'attention non pas comme une agrégation explicite token par token, mais comme un processus implicite où les paramètres générés dynamiquement agissent comme une représentation compressée du contexte global. Inspirés par cette intuition, nous investiguons une question fondamentale : pouvons-nous atteindre une modélisation séquentielle globale de niveau Transformer entièrement par paramétrisation dynamique tout en maintenant une complexité linéaire, remplaçant ainsi efficacement l'attention explicite ? Pour explorer cela, nous concevons diverses stratégies de prédiction de paramètres dynamiques et les intégrons dans des couches de réseau standard. Des études empiriques approfondies sur des modèles de vision démontrent que la paramétrisation dynamique peut effectivement servir d'alternative hautement efficace et à complexité linéaire à l'attention explicite, ouvrant de nouvelles voies pour la modélisation efficace de séquences. Le code est disponible à l'adresse https://github.com/LeapLabTHU/WeightFormer.

English

Existing research largely attributes the global sequence modeling capability of Transformers to the explicit computation of attention weights, a process that inherently incurs quadratic computational complexity. In this work, we offer a novel perspective: we demonstrate that attention can be mathematically reframed as a Multi-Layer Perceptron (MLP) equipped with dynamically predicted parameters. Through this lens, we explain attention's global modeling power not as explicit token-wise aggregation, but as an implicit process where dynamically generated parameters act as a compressed representation of the global context. Inspired by this insight, we investigate a fundamental question: can we achieve Transformer-level sequence global modeling entirely through dynamic parameterization while maintaining linear complexity, effectively replacing explicit attention? To explore this, we design various dynamic parameter prediction strategies and integrate them into standard network layers. Extensive empirical studies on vision models demonstrate that dynamic parameterization can indeed serve as a highly effective, linear-complexity alternative to explicit attention, opening new pathways for efficient sequence modeling. Code is available at https://github.com/LeapLabTHU/WeightFormer.

Modélisation visuelle globale en temps linéaire sans attention explicite

Linear-Time Global Visual Modeling without Explicit Attention

Résumé

Support