Attenzione di Kolmogorov-Arnold: L'attenzione apprendibile è migliore per i Vision Transformer?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
Autori: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
Abstract
Le reti di Kolmogorov-Arnold (KANs) rappresentano un'innovazione notevole, costituita da funzioni di attivazione apprendibili con il potenziale di catturare relazioni più complesse dai dati. Sebbene le KANs siano utili per trovare rappresentazioni simboliche e per l'apprendimento continuo di funzioni unidimensionali, la loro efficacia in vari compiti di machine learning (ML), come la visione artificiale, rimane discutibile. Attualmente, le KANs vengono implementate sostituendo i perceptroni multistrato (MLPs) nelle architetture di reti profonde, comprese architetture avanzate come i Transformer per la visione (ViTs). In questo articolo, siamo i primi a progettare un'attenzione apprendibile generale di Kolmogorov-Arnold (KArAt) per ViTs standard che può operare su qualsiasi scelta di base. Tuttavia, i costi computazionali e di memoria per il loro addestramento ci hanno spinto a proporre una versione più modulare, e abbiamo progettato un'attenzione apprendibile specifica, chiamata Fourier-KArAt. Fourier-KArAt e le sue varianti superano le loro controparti ViT o mostrano prestazioni comparabili sui dataset CIFAR-10, CIFAR-100 e ImageNet-1K. Analizziamo le prestazioni e la capacità di generalizzazione di queste architetture esaminando i loro paesaggi di perdita, distribuzioni dei pesi, percorso dell'ottimizzatore, visualizzazione dell'attenzione e comportamento spettrale, e le confrontiamo con i ViT standard. L'obiettivo di questo articolo non è produrre un'attenzione efficiente in termini di parametri e calcolo, ma incoraggiare la comunità a esplorare le KANs in combinazione con architetture più avanzate che richiedono una comprensione accurata delle attivazioni apprendibili. Il nostro codice open-source e i dettagli di implementazione sono disponibili su: https://subhajitmaity.me/KArAt
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAt