Remplacer le softmax par ReLU dans les Vision Transformers
Replacing softmax with ReLU in Vision Transformers
September 15, 2023
Auteurs: Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI
Résumé
Les recherches précédentes ont observé une dégradation de la précision lors du remplacement du softmax d'attention par une activation ponctuelle telle que ReLU. Dans le contexte des vision transformers, nous constatons que cette dégradation est atténuée lorsqu'on divise par la longueur de la séquence. Nos expériences d'entraînement de vision transformers de petite à grande taille sur ImageNet-21k indiquent que l'attention ReLU peut approcher ou égaler les performances de l'attention softmax en termes de comportement de mise à l'échelle en fonction du calcul.
English
Previous research observed accuracy degradation when replacing the attention
softmax with a point-wise activation such as ReLU. In the context of vision
transformers, we find that this degradation is mitigated when dividing by
sequence length. Our experiments training small to large vision transformers on
ImageNet-21k indicate that ReLU-attention can approach or match the performance
of softmax-attention in terms of scaling behavior as a function of compute.