Глобальное визуальное моделирование в реальном времени без явного механизма внимания

Аннотация

Существующие исследования в основном объясняют способность трансформеров к глобальному моделированию последовательностей явным вычислением весов внимания — процессом, который по своей природе обладает квадратичной вычислительной сложностью. В данной работе мы предлагаем новую перспективу: мы показываем, что механизм внимания можно математически переформулировать как многослойный перцептрон (MLP), оснащённый динамически предсказываемыми параметрами. Через эту призму мы объясняем способность внимания к глобальному моделированию не как явную поэлементную агрегацию, а как неявный процесс, в котором динамически генерируемые параметры выступают в роли сжатого представления глобального контекста. Руководствуясь этим наблюдением, мы исследуем фундаментальный вопрос: можно ли достичь уровня глобального моделирования последовательностей, характерного для трансформеров, полностью за счёт динамической параметризации, сохраняя при этом линейную сложность, и тем самым эффективно заменить явное внимание? Чтобы изучить это, мы разрабатываем различные стратегии предсказания динамических параметров и интегрируем их в стандартные сетевые слои. Обширные эмпирические исследования на моделях для компьютерного зрения демонстрируют, что динамическая параметризация действительно может служить высокоэффективной альтернативой явному вниманию с линейной сложностью, открывая новые пути для эффективного моделирования последовательностей. Код доступен по адресу https://github.com/LeapLabTHU/WeightFormer.

English

Existing research largely attributes the global sequence modeling capability of Transformers to the explicit computation of attention weights, a process that inherently incurs quadratic computational complexity. In this work, we offer a novel perspective: we demonstrate that attention can be mathematically reframed as a Multi-Layer Perceptron (MLP) equipped with dynamically predicted parameters. Through this lens, we explain attention's global modeling power not as explicit token-wise aggregation, but as an implicit process where dynamically generated parameters act as a compressed representation of the global context. Inspired by this insight, we investigate a fundamental question: can we achieve Transformer-level sequence global modeling entirely through dynamic parameterization while maintaining linear complexity, effectively replacing explicit attention? To explore this, we design various dynamic parameter prediction strategies and integrate them into standard network layers. Extensive empirical studies on vision models demonstrate that dynamic parameterization can indeed serve as a highly effective, linear-complexity alternative to explicit attention, opening new pathways for efficient sequence modeling. Code is available at https://github.com/LeapLabTHU/WeightFormer.

Глобальное визуальное моделирование в реальном времени без явного механизма внимания

Linear-Time Global Visual Modeling without Explicit Attention

Аннотация

Support