Remplacer le softmax par ReLU dans les Vision Transformers

papers.abstract

Les recherches précédentes ont observé une dégradation de la précision lors du remplacement du softmax d'attention par une activation ponctuelle telle que ReLU. Dans le contexte des vision transformers, nous constatons que cette dégradation est atténuée lorsqu'on divise par la longueur de la séquence. Nos expériences d'entraînement de vision transformers de petite à grande taille sur ImageNet-21k indiquent que l'attention ReLU peut approcher ou égaler les performances de l'attention softmax en termes de comportement de mise à l'échelle en fonction du calcul.

English

Previous research observed accuracy degradation when replacing the attention softmax with a point-wise activation such as ReLU. In the context of vision transformers, we find that this degradation is mitigated when dividing by sequence length. Our experiments training small to large vision transformers on ImageNet-21k indicate that ReLU-attention can approach or match the performance of softmax-attention in terms of scaling behavior as a function of compute.

Remplacer le softmax par ReLU dans les Vision Transformers

Replacing softmax with ReLU in Vision Transformers

papers.abstract

Support