Колмогоров-Арнольд Внимание: Является ли обучаемое внимание лучше для Vision Transformers?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
Авторы: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
Аннотация
Сети Колмогорова-Арнольда (KANs) представляют собой значительное нововведение, состоящее из обучаемых функций активации, способных выявлять более сложные зависимости в данных. Хотя KANs полезны для поиска символических представлений и непрерывного обучения одномерных функций, их эффективность в разнообразных задачах машинного обучения (ML), таких как обработка изображений, остается под вопросом. В настоящее время KANs внедряются путем замены многослойных перцептронов (MLPs) в архитектурах глубоких сетей, включая продвинутые архитектуры, такие как Vision Transformers (ViTs). В данной работе мы впервые разработали универсальный обучаемый механизм внимания Колмогорова-Арнольда (KArAt) для стандартных ViTs, который может работать с любым выбором базиса. Однако вычислительные и ресурсные затраты на их обучение побудили нас предложить более модульную версию, и мы разработали специализированный обучаемый механизм внимания, названный Fourier-KArAt. Fourier-KArAt и его варианты либо превосходят свои аналоги на основе ViT, либо демонстрируют сопоставимую производительность на наборах данных CIFAR-10, CIFAR-100 и ImageNet-1K. Мы анализируем производительность и способность к обобщению этих архитектур, изучая их ландшафты потерь, распределения весов, траектории оптимизатора, визуализацию внимания и спектральное поведение, и сравниваем их с классическими ViTs. Цель данной работы заключается не в создании параметрически и вычислительно эффективного механизма внимания, а в том, чтобы стимулировать сообщество к исследованию KANs в сочетании с более продвинутыми архитектурами, требующими тщательного понимания обучаемых функций активации. Наш исходный код и детали реализации доступны по адресу: https://subhajitmaity.me/KArAt.
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAtSummary
AI-Generated Summary