콜모고로프-아놀드 어텐션: 비전 트랜스포머를 위한 학습 가능한 어텐션이 더 나은가?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
저자: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
초록
콜모고로프-아르놀드 네트워크(KANs)는 데이터로부터 더 복잡한 관계를 포착할 수 있는 잠재력을 가진 학습 가능한 활성화 함수로 구성된 주목할 만한 혁신입니다. KANs는 1차원 함수의 기호적 표현과 지속적 학습을 찾는 데 유용하지만, 시각과 같은 다양한 기계 학습(ML) 작업에서의 효과성은 여전히 의문의 여지가 있습니다. 현재 KANs는 비전 트랜스포머(ViTs)와 같은 고급 아키텍처를 포함한 심층 네트워크 아키텍처에서 다층 퍼셉트론(MLPs)을 대체하여 배포되고 있습니다. 본 논문에서는 우리는 처음으로 일반적인 학습 가능한 콜모고로프-아르놀드 어텐션(KArAt)을 일반적인 ViTs에 설계하여 어떤 기저 선택에서도 작동할 수 있도록 했습니다. 그러나 이를 훈련하는 데 드는 계산 및 메모리 비용은 우리에게 더 모듈화된 버전을 제안하도록 동기를 부여했고, 우리는 푸리에-KArAt이라는 특정 학습 가능한 어텐션을 설계했습니다. 푸리에-KArAt과 그 변형들은 CIFAR-10, CIFAR-100, ImageNet-1K 데이터셋에서 그들의 ViT 대응물을 능가하거나 비슷한 성능을 보입니다. 우리는 이러한 아키텍처의 성능과 일반화 능력을 그들의 손실 경관, 가중치 분포, 옵티마이저 경로, 어텐션 시각화, 스펙트럼 행동을 분석하고 일반적인 ViTs와 대조하여 해부합니다. 본 논문의 목표는 매개변수와 계산 효율적인 어텐션을 생산하는 것이 아니라, 학습 가능한 활성화 함수를 신중하게 이해해야 하는 더 고급 아키텍처와 함께 KANs를 탐구하도록 커뮤니티를 격려하는 것입니다. 우리의 오픈소스 코드와 구현 세부 사항은 https://subhajitmaity.me/KArAt에서 확인할 수 있습니다.
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAtSummary
AI-Generated Summary