Softmax vervangen door ReLU in Vision Transformers
Replacing softmax with ReLU in Vision Transformers
September 15, 2023
Auteurs: Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI
Samenvatting
Eerder onderzoek constateerde een afname in nauwkeurigheid bij het vervangen van de softmax-attentie door een puntgewijze activatie zoals ReLU. In de context van vision-transformers ontdekken we dat deze afname wordt verminderd wanneer gedeeld wordt door de sequentielengte. Onze experimenten met het trainen van kleine tot grote vision-transformers op ImageNet-21k geven aan dat ReLU-attentie de prestaties van softmax-attentie kan benaderen of evenaren wat betreft schaalgedrag als functie van rekenkracht.
English
Previous research observed accuracy degradation when replacing the attention
softmax with a point-wise activation such as ReLU. In the context of vision
transformers, we find that this degradation is mitigated when dividing by
sequence length. Our experiments training small to large vision transformers on
ImageNet-21k indicate that ReLU-attention can approach or match the performance
of softmax-attention in terms of scaling behavior as a function of compute.