Globale Visuele Modellering in Lineaire Tijd zonder Expliciete Aandacht

Samenvatting

Bestaand onderzoek schrijft het wereldwijde sequentiemodelleringsvermogen van Transformers grotendeels toe aan de expliciete berekening van aandachtswaarden, een proces dat inherent kwadratische computationele complexiteit met zich meebrengt. In dit werk bieden wij een nieuw perspectief: wij tonen aan dat aandacht wiskundig kan worden herformuleerd als een Multi-Layer Perceptron (MLP) uitgerust met dynamisch voorspelde parameters. Door deze lens verklaren we het globale modelleringsvermogen van aandacht niet als een expliciete aggregatie van tokens, maar als een impliciet proces waarbij dynamisch gegenereerde parameters fungeren als een gecomprimeerde representatie van de globale context. Geïnspireerd door dit inzicht onderzoeken we een fundamentele vraag: kunnen we Transformer-niveau van globale sequentiemodellering volledig bereiken via dynamische parameterisatie met behoud van lineaire complexiteit, en daarbij expliciete aandacht effectief vervangen? Om dit te verkennen, ontwerpen we verschillende strategieën voor dynamische parameterpredictie en integreren deze in standaard netwerklagen. Uitgebreide empirische studies met visionmodellen tonen aan dat dynamische parameterisatie inderdaad een zeer effectief, lineair-complex alternatief kan zijn voor expliciete aandacht, wat nieuwe wegen opent voor efficiënte sequentiemodellering. Code is beschikbaar op https://github.com/LeapLabTHU/WeightFormer.

English

Existing research largely attributes the global sequence modeling capability of Transformers to the explicit computation of attention weights, a process that inherently incurs quadratic computational complexity. In this work, we offer a novel perspective: we demonstrate that attention can be mathematically reframed as a Multi-Layer Perceptron (MLP) equipped with dynamically predicted parameters. Through this lens, we explain attention's global modeling power not as explicit token-wise aggregation, but as an implicit process where dynamically generated parameters act as a compressed representation of the global context. Inspired by this insight, we investigate a fundamental question: can we achieve Transformer-level sequence global modeling entirely through dynamic parameterization while maintaining linear complexity, effectively replacing explicit attention? To explore this, we design various dynamic parameter prediction strategies and integrate them into standard network layers. Extensive empirical studies on vision models demonstrate that dynamic parameterization can indeed serve as a highly effective, linear-complexity alternative to explicit attention, opening new pathways for efficient sequence modeling. Code is available at https://github.com/LeapLabTHU/WeightFormer.

Globale Visuele Modellering in Lineaire Tijd zonder Expliciete Aandacht

Linear-Time Global Visual Modeling without Explicit Attention

Samenvatting

Support