Atenção Kolmogorov-Arnold: A Atenção Aprendizável é Melhor para Transformers de Visão?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
Autores: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
Resumo
As redes de Kolmogorov-Arnold (KANs) são uma inovação notável que consiste em funções de ativação aprendíveis com o potencial de capturar relações mais complexas a partir de dados. Embora as KANs sejam úteis para encontrar representações simbólicas e aprendizado contínuo de funções unidimensionais, sua eficácia em diversas tarefas de aprendizado de máquina (ML), como visão, permanece questionável. Atualmente, as KANs são implantadas substituindo perceptrons multicamadas (MLPs) em arquiteturas de redes profundas, incluindo arquiteturas avançadas como Transformers de visão (ViTs). Neste artigo, somos os primeiros a projetar uma Atenção Kolmogorov-Arnold Aprendível Geral (KArAt) para ViTs clássicos que pode operar em qualquer escolha de base. No entanto, os custos de computação e memória para treiná-las nos motivaram a propor uma versão mais modular, e projetamos uma atenção aprendível específica, chamada Fourier-KArAt. A Fourier-KArAt e suas variantes superam suas contrapartes ViT ou apresentam desempenho comparável nos conjuntos de dados CIFAR-10, CIFAR-100 e ImageNet-1K. Analisamos o desempenho e a capacidade de generalização dessas arquiteturas examinando suas paisagens de perda, distribuições de pesos, caminho do otimizador, visualização de atenção e comportamento espectral, e as contrastamos com ViTs clássicos. O objetivo deste artigo não é produzir uma atenção eficiente em termos de parâmetros e computação, mas incentivar a comunidade a explorar as KANs em conjunto com arquiteturas mais avançadas que exigem um entendimento cuidadoso das ativações aprendíveis. Nosso código de código aberto e detalhes de implementação estão disponíveis em: https://subhajitmaity.me/KArAt
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAtSummary
AI-Generated Summary