ChatPaper.aiChatPaper

Sur l'Expressivité de l'Attention Softmax : Une Perspective des Réseaux de Neurones Récurrents

On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

July 31, 2025
papers.authors: Gabriel Mongaras, Eric C. Larson
cs.AI

papers.abstract

Depuis son introduction, l'attention softmax est devenue la pierre angulaire des architectures modernes de transformateurs en raison de son expressivité et de sa scalabilité sur un large éventail de tâches. Cependant, le principal inconvénient de l'attention softmax réside dans son besoin en mémoire quadratique et sa complexité computationnelle par rapport à la longueur de la séquence. En remplaçant la non-linéarité softmax, l'attention linéaire et des méthodes similaires ont été introduites pour éviter le goulot d'étranglement quadratique de l'attention softmax. Bien que ces formes linéaires d'attention soient dérivées de la formulation originale de la softmax, elles sont généralement moins performantes en termes de précision en aval. Alors qu'une intuition forte de la non-linéarité softmax sur le produit interne des requêtes et des clés suggère qu'elle possède des propriétés souhaitables par rapport à d'autres non-linéarités, la question de savoir pourquoi cette divergence existe reste sans réponse. Ce travail démontre que l'attention linéaire est une approximation de l'attention softmax en dérivant la forme récurrente de l'attention softmax. En utilisant cette forme, chaque partie de l'attention softmax peut être décrite dans le langage des réseaux de neurones récurrents (RNN). Décrire l'attention softmax comme un RNN permet de procéder à l'ablation des composants de l'attention softmax pour comprendre l'importance de chaque partie et comment elles interagissent. De cette manière, notre travail contribue à expliquer pourquoi l'attention softmax est plus expressive que ses alternatives.
English
Since its introduction, softmax attention has become the backbone of modern transformer architectures due to its expressiveness and scalability across a wide range of tasks. However, the main drawback of softmax attention is the quadratic memory requirement and computational complexity with respect to the sequence length. By replacing the softmax nonlinearity, linear attention and similar methods have been introduced to avoid the quadratic bottleneck of softmax attention. Despite these linear forms of attention being derived from the original softmax formulation, they typically lag in terms of downstream accuracy. While strong intuition of the softmax nonlinearity on the query and key inner product suggests that it has desirable properties compared to other nonlinearities, the question of why this discrepancy exists still remains unanswered. This work demonstrates that linear attention is an approximation of softmax attention by deriving the recurrent form of softmax attention. Using this form, each part of softmax attention can be described in the language of recurrent neural networks (RNNs). Describing softmax attention as an RNN allows for the ablation of the components of softmax attention to understand the importance of each part and how they interact. In this way, our work helps explain why softmax attention is more expressive than its counterparts.
PDF22August 1, 2025