ChatPaper.aiChatPaper

Attention de Kolmogorov-Arnold : L'attention apprenable est-elle meilleure pour les Transformers de vision ?

Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

March 13, 2025
Auteurs: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI

Résumé

Les réseaux de Kolmogorov-Arnold (KANs) représentent une innovation remarquable, composée de fonctions d'activation apprenables capables de capturer des relations plus complexes à partir des données. Bien que les KANs soient utiles pour trouver des représentations symboliques et pour l'apprentissage continu de fonctions unidimensionnelles, leur efficacité dans diverses tâches d'apprentissage automatique (ML), telles que la vision, reste incertaine. Actuellement, les KANs sont déployés en remplaçant les perceptrons multicouches (MLPs) dans les architectures de réseaux profonds, y compris des architectures avancées comme les Transformers de vision (ViTs). Dans cet article, nous sommes les premiers à concevoir une attention Kolmogorov-Arnold apprenable générale (KArAt) pour les ViTs classiques, capable de fonctionner avec n'importe quel choix de base. Cependant, les coûts de calcul et de mémoire liés à leur entraînement nous ont incités à proposer une version plus modulaire, et nous avons conçu une attention apprenable spécifique, appelée Fourier-KArAt. Fourier-KArAt et ses variantes surpassent leurs homologues ViTs ou montrent des performances comparables sur les ensembles de données CIFAR-10, CIFAR-100 et ImageNet-1K. Nous analysons la performance et la capacité de généralisation de ces architectures en examinant leurs paysages de perte, distributions de poids, trajectoire de l'optimiseur, visualisation de l'attention et comportement spectral, et nous les contrastons avec les ViTs classiques. L'objectif de cet article n'est pas de produire une attention efficace en termes de paramètres et de calcul, mais d'encourager la communauté à explorer les KANs en conjonction avec des architectures plus avancées qui nécessitent une compréhension approfondie des activations apprenables. Notre code open-source et les détails d'implémentation sont disponibles sur : https://subhajitmaity.me/KArAt
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of learnable activation functions with the potential to capture more complex relationships from data. Although KANs are useful in finding symbolic representations and continual learning of one-dimensional functions, their effectiveness in diverse machine learning (ML) tasks, such as vision, remains questionable. Presently, KANs are deployed by replacing multilayer perceptrons (MLPs) in deep network architectures, including advanced architectures such as vision Transformers (ViTs). In this paper, we are the first to design a general learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate on any choice of basis. However, the computing and memory costs of training them motivated us to propose a more modular version, and we designed particular learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants either outperform their ViT counterparts or show comparable performance on CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures' performance and generalization capacity by analyzing their loss landscapes, weight distributions, optimizer path, attention visualization, and spectral behavior, and contrast them with vanilla ViTs. The goal of this paper is not to produce parameter- and compute-efficient attention, but to encourage the community to explore KANs in conjunction with more advanced architectures that require a careful understanding of learnable activations. Our open-source code and implementation details are available on: https://subhajitmaity.me/KArAt
PDF142March 17, 2025