Atención de Kolmogorov-Arnold: ¿Es la atención aprendible mejor para los Transformers de visión?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
Autores: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
Resumen
Las redes de Kolmogorov-Arnold (KANs) son una innovación notable que consiste en funciones de activación aprendibles con el potencial de capturar relaciones más complejas a partir de los datos. Aunque las KANs son útiles para encontrar representaciones simbólicas y el aprendizaje continuo de funciones unidimensionales, su efectividad en diversas tareas de aprendizaje automático (ML), como la visión, sigue siendo cuestionable. Actualmente, las KANs se implementan reemplazando a los perceptrones multicapa (MLPs) en arquitecturas de redes profundas, incluyendo arquitecturas avanzadas como los Transformers de visión (ViTs). En este artículo, somos los primeros en diseñar una Atención de Kolmogorov-Arnold Aprendible (KArAt) general para ViTs estándar que puede operar con cualquier elección de base. Sin embargo, los costos computacionales y de memoria asociados a su entrenamiento nos motivaron a proponer una versión más modular, y diseñamos una atención aprendible específica, llamada Fourier-KArAt. Fourier-KArAt y sus variantes superan a sus contrapartes ViT o muestran un rendimiento comparable en los conjuntos de datos CIFAR-10, CIFAR-100 e ImageNet-1K. Analizamos el rendimiento y la capacidad de generalización de estas arquitecturas examinando sus paisajes de pérdida, distribuciones de pesos, trayectoria del optimizador, visualización de la atención y comportamiento espectral, y los contrastamos con los ViTs estándar. El objetivo de este artículo no es producir una atención eficiente en parámetros y cómputo, sino alentar a la comunidad a explorar las KANs en conjunto con arquitecturas más avanzadas que requieren una comprensión cuidadosa de las activaciones aprendibles. Nuestro código de código abierto y los detalles de implementación están disponibles en: https://subhajitmaity.me/KArAt.
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAtSummary
AI-Generated Summary