Globale visuelle Modellierung in Linearzeit ohne explizite Aufmerksamkeit

Zusammenfassung

Bestehende Forschung führt die Fähigkeit von Transformern zur globalen Sequenzmodellierung weitgehend auf die explizite Berechnung von Attention-Gewichten zurück, ein Prozess, der inhärent quadratische Rechenkomplexität verursacht. In dieser Arbeit bieten wir eine neuartige Perspektive: Wir zeigen, dass Attention mathematisch als ein Multi-Layer Perceptron (MLP) mit dynamisch vorhergesagten Parametern umformuliert werden kann. Durch diese Betrachtungsweise erklären wir die globale Modellierungsfähigkeit von Attention nicht als explizite Token-Aggregation, sondern als einen impliziten Prozess, bei dem dynamisch generierte Parameter als komprimierte Repräsentation des globalen Kontexts fungieren. Inspiriert von dieser Erkenntnis untersuchen wir eine grundlegende Frage: Können wir eine transformerähnliche globale Sequenzmodellierung vollständig durch dynamische Parametrisierung bei linearer Komplexität erreichen und damit explizite Attention ersetzen? Um dies zu erforschen, entwerfen wir verschiedene Strategien zur dynamischen Parameterprädiktion und integrieren sie in Standard-Netzwerkschichten. Umfangreiche empirische Studien an Vision-Modellen zeigen, dass dynamische Parametrisierung tatsächlich eine hocheffektive Alternative zu expliziter Attention mit linearer Komplexität darstellen kann, was neue Wege für effiziente Sequenzmodellierung eröffnet. Code ist verfügbar unter https://github.com/LeapLabTHU/WeightFormer.

English

Existing research largely attributes the global sequence modeling capability of Transformers to the explicit computation of attention weights, a process that inherently incurs quadratic computational complexity. In this work, we offer a novel perspective: we demonstrate that attention can be mathematically reframed as a Multi-Layer Perceptron (MLP) equipped with dynamically predicted parameters. Through this lens, we explain attention's global modeling power not as explicit token-wise aggregation, but as an implicit process where dynamically generated parameters act as a compressed representation of the global context. Inspired by this insight, we investigate a fundamental question: can we achieve Transformer-level sequence global modeling entirely through dynamic parameterization while maintaining linear complexity, effectively replacing explicit attention? To explore this, we design various dynamic parameter prediction strategies and integrate them into standard network layers. Extensive empirical studies on vision models demonstrate that dynamic parameterization can indeed serve as a highly effective, linear-complexity alternative to explicit attention, opening new pathways for efficient sequence modeling. Code is available at https://github.com/LeapLabTHU/WeightFormer.

Globale visuelle Modellierung in Linearzeit ohne explizite Aufmerksamkeit

Linear-Time Global Visual Modeling without Explicit Attention

Zusammenfassung

Support