Kolmogorov-Arnold Attention: Is Leerbare Attention Beter Voor Vision Transformers?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
Auteurs: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
Samenvatting
Kolmogorov-Arnold-netwerken (KANs) vormen een opmerkelijke innovatie die bestaat uit leerbare activatiefuncties met het potentieel om complexere relaties uit data vast te leggen. Hoewel KANs nuttig zijn voor het vinden van symbolische representaties en het continu leren van eendimensionale functies, blijft hun effectiviteit in diverse machine learning (ML)-taken, zoals visie, twijfelachtig. Momenteel worden KANs ingezet door multilayer perceptrons (MLPs) te vervangen in diepe netwerkarchitecturen, waaronder geavanceerde architecturen zoals vision Transformers (ViTs). In dit artikel zijn wij de eersten die een algemene leerbare Kolmogorov-Arnold Attention (KArAt) ontwerpen voor standaard ViTs die kan werken met elke keuze van basis. De reken- en geheugenkosten van het trainen ervan hebben ons echter gemotiveerd om een meer modulaire versie voor te stellen, en we hebben een specifieke leerbare aandacht ontworpen, genaamd Fourier-KArAt. Fourier-KArAt en zijn varianten overtreffen hun ViT-tegenhangers of laten vergelijkbare prestaties zien op de CIFAR-10, CIFAR-100 en ImageNet-1K datasets. We ontleden de prestaties en generalisatiecapaciteit van deze architecturen door hun verlieslandschappen, gewichtsverdelingen, optimizer-paden, aandachtvisualisaties en spectraalgedrag te analyseren, en vergelijken deze met standaard ViTs. Het doel van dit artikel is niet om parameter- en reken-efficiënte aandacht te produceren, maar om de gemeenschap aan te moedigen KANs te verkennen in combinatie met meer geavanceerde architecturen die een zorgvuldig begrip van leerbare activaties vereisen. Onze open-source code en implementatiedetails zijn beschikbaar op: https://subhajitmaity.me/KArAt
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAtSummary
AI-Generated Summary