Modelado Visual Global en Tiempo Lineal sin Atención Explícita

Resumen

La investigación existente atribuye en gran medida la capacidad de modelado de secuencias global de los Transformers al cálculo explícito de los pesos de atención, un proceso que inherentemente incurre en una complejidad computacional cuadrática. En este trabajo, ofrecemos una perspectiva novedosa: demostramos que la atención puede reformularse matemáticamente como un Perceptrón Multicapa (MLP) equipado con parámetros predichos dinámicamente. A través de esta lente, explicamos el poder de modelado global de la atención no como una agregación explícita token por token, sino como un proceso implícito donde los parámetros generados dinámicamente actúan como una representación comprimida del contexto global. Inspirados por esta idea, investigamos una pregunta fundamental: ¿podemos lograr un modelado secuencial global al nivel de los Transformers completamente a través de la parametrización dinámica manteniendo una complejidad lineal, reemplazando efectivamente la atención explícita? Para explorar esto, diseñamos varias estrategias de predicción de parámetros dinámicos y las integramos en capas de red estándar. Extensos estudios empíricos en modelos de visión demuestran que la parametrización dinámica puede, de hecho, servir como una alternativa altamente efectiva y de complejidad lineal a la atención explícita, abriendo nuevas vías para el modelado eficiente de secuencias. El código está disponible en https://github.com/LeapLabTHU/WeightFormer.

English

Existing research largely attributes the global sequence modeling capability of Transformers to the explicit computation of attention weights, a process that inherently incurs quadratic computational complexity. In this work, we offer a novel perspective: we demonstrate that attention can be mathematically reframed as a Multi-Layer Perceptron (MLP) equipped with dynamically predicted parameters. Through this lens, we explain attention's global modeling power not as explicit token-wise aggregation, but as an implicit process where dynamically generated parameters act as a compressed representation of the global context. Inspired by this insight, we investigate a fundamental question: can we achieve Transformer-level sequence global modeling entirely through dynamic parameterization while maintaining linear complexity, effectively replacing explicit attention? To explore this, we design various dynamic parameter prediction strategies and integrate them into standard network layers. Extensive empirical studies on vision models demonstrate that dynamic parameterization can indeed serve as a highly effective, linear-complexity alternative to explicit attention, opening new pathways for efficient sequence modeling. Code is available at https://github.com/LeapLabTHU/WeightFormer.

Modelado Visual Global en Tiempo Lineal sin Atención Explícita

Linear-Time Global Visual Modeling without Explicit Attention

Resumen

Support